吴恩达:图灵测试不够用了,我会设计一个AGI专用版
创始人
2026-01-10 20:02:08
0

来源:市场资讯

(来源:量子位)

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。

去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。

正如网友所言:

图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。

此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

相关内容

热门资讯

东方哲思:阿里巴巴杭州南湖未来... 第六届GHDA环球人居设计大奖火热申 在自然中觉知。 阿普贝思 UP+S 项目背景 得天独厚的亚...
〖一分钟秒懂〗乌鲁木齐智慧农业... **乌鲁木齐智慧农业:科技赋能的现代耕种** 在广袤的新疆大地上,乌鲁木齐正以其独特的区位优势和资...
QEMU 11.0将彻底移除3... 2026-01-10 02:01:48 作者:狼叫兽 开源模拟器 QEMU 此前已宣布停止支持 3...
小米申请点云编解码专利,能够提... 国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“用于使用粗略位置的邻域相关性对点云的点...
亚尔特取得热轧钢管切割飞屑收集... 国家知识产权局信息显示,无锡亚尔特金属制品有限公司取得一项名为“一种热轧钢管切割飞屑收集装置”的专利...
西交利物浦大学团队攻克SVP-... 来源:市场资讯 (来源:IT之家) IT之家 1 月 10 日消息,据中国新闻网今日报道,江苏省金融...
互联网应用程序个人信息收集使用... (来源:法治日报) 转自:法治日报 本报北京1月10日讯 记者刘欣 记者今天从国家互联网信息办公室获...
菜鸟:物流机器人等产品具备全球... 近日,工业和信息化部信息通信管理局公布了13个《增值电信业务赋能新型工业化典型案例》,百度、阿里云、...
亿霖激光取得管材切割用上料机构... 国家知识产权局信息显示,漳州市亿霖激光科技有限公司取得一项名为“一种管材切割用上料机构”的专利,授权...
华为申请卫星接入方法及装置专利... 国家知识产权局信息显示,华为技术有限公司申请一项名为“一种卫星接入方法及装置”的专利,公开号CN12...
国家网信办拟规范互联网应用程序... 新华社北京1月10日电 为规范互联网应用程序个人信息收集使用活动,保护个人信息权益,促进个人信息合理...
华中首座智慧健康科技馆亮相光谷... 近日,位于湖北武汉光谷的益健堂智慧健康科技馆迎来第100000名参观者,标志着这座华中地区首个智慧健...
美团、淘宝闪购,分别表态 据市场监督管理总局1月9日消息,近日,国务院反垄断反不正当竞争委员会办公室依据《中华人民共和国反垄断...
ChatGPT跟进阿福,AI健... 国内AI率先打通健康服务全链路。 文丨海克财经 范东成 AI浪潮正席卷医疗健康领域。 头部玩家入局动...
济源北控水务:变频设备清洁维护... 在水厂的供水系统中,变频设备宛如一颗“智慧心脏”,作为水泵机组的核心控制单元,它精准地调节着水泵转速...
吴恩达:图灵测试不够用了,我会... 来源:市场资讯 (来源:量子位) 新年新气象!AI大神吴恩达2026年目标公开: 要做一个新的图灵测...
英国政府警告马斯克旗下人工智能... 新华社伦敦1月9日电(记者郭爽)英国政府9日表示,美国企业家马斯克旗下人工智能企业xAI在被指责其聊...
国家网信办拟规定:APP不得在... “网信中国”微信公众号1月10日消息,国家互联网信息办公室发布关于《互联网应用程序个人信息收集使用规...
三大外卖平台集体表态:积极配合... 1月9日,国家市场监督管理总局发布公告,国务院反垄断反不正当竞争委员会办公室将对外卖平台服务行业市场...
AI“抢芯”!手机、电脑、新能... 随着AI(人工智能)服务器需求持续高位运行,一场始于算力基础设施的成本变化,正沿着产业链向外扩散。近...