能做数学却答错大小比较:AI能力评估方法亟待革新
创始人
2026-02-03 19:21:46
0

斯坦福大学人类中心人工智能研究所(HAI)举办的一场研讨会汇聚了众多专家,共同探讨开发新的评估方法,以测量AI的隐藏能力,而不仅仅是其应试表现。

人工智能创作一首十四行诗或求解复杂的微分方程,它能展现出惊人的能力,但与此同时,它也可能坚称2.11大于2.9。

这些不协调且令人困惑的回答,促使一组AI研究人员——包括施密特科学中心AI研究所驻所研究员奥拉瓦莱·萨劳丁、斯坦福大学计算机科学助理教授桑米·科耶约,以及康奈尔大学信息科学助理教授安杰丽娜·王——在斯坦福人类中心人工智能研究所召开研讨会,讨论和辩论如何更好地测量AI的内在能力和特征。该研讨会由施密特科学中心和麦克阿瑟基金会资助。

"这项工作十分必要,因为我们经常在没有科学依据的情况下,将人类特征和相关行为强加到这些非人类系统上,"萨劳丁说。"AI模型很可能拥有与人类截然不同的一套行为解释特征,尽管它们可能会模仿人类行为。"

"更好的测量是实现更安全、更可靠的人工智能的关键,"科耶约解释道,"我们需要为AI系统建立一门测量科学,就像从物理学到学习科学等领域那样。但现在,这门科学还不存在。"

当前AI评估的问题

每次训练新模型时,都会对其进行一系列问题测试,并根据其回答的好坏进行评分。但这些问题无法评估AI那些难以测量的隐藏能力,如智能、逻辑和推理。尽管目前有数千个基准测试题库可用,但科耶约表示,大多数题库要么存在缺陷,要么无法胜任测量当今日益复杂的模型的微妙技能。

组织者表示,这次基准测试研讨会对AI的未来至关重要。它汇集了来自学术界、产业界、非营利组织和政策领域的专家,共同回答一个迫在眉睫的问题:"当我们对AI系统进行基准测试时,我们实际上在测量什么?"

他们更大的目标是激发整个领域的努力,开发一套稳健、准确和标准的基准测试,以测量AI对其所提供答案的理解程度。王将此与心理测量学进行了类比,心理测量学是心理学的一个分支,试图测量智能和推理等隐藏品质。

正如心理测量学测试人类学生是否理解数学背后的概念,而不仅仅是记忆答案,当前的AI基准测试只检查AI是否给出正确答案。它可能在测试中得"A",但却错过了更重要的要点。

"AI基准测试能很好地测试特定的客观任务和知识,但无法测试潜在的特征和能力,"王说。

借鉴心理测量学的方法

基于心理学和神经科学数十年的测量科学积累,此次基准测试研讨会旨在弥合AI领域的这一差距。与会者讨论了当前基准测试的质量和有效性,探讨了AI的潜在特征是否可以被测量,并辩论了推理等人类概念是否适用于AI。一些组织者已经开始创建"AI概念词典",作为为AI开发类似认知科学领域"认知图谱"的早期步骤——一个协作创建和管理的知识库,反映整个领域的最新和最佳思想。

"在其历史早期,心理学也面临着测量看似无法测量特征的类似挑战,"科耶约指出。"该领域发展出心理测量学,通过多项测试的模式推断'潜在特征'。AI需要类似的方法——从'AI能通过这个实际测试吗?'转向'这个测试揭示了AI的什么潜在能力?'"

萨劳丁以研讨会上的热门话题"同名异义与异名同义谬误"为例,这个术语借用自心理测量学,指两个不相关的概念因名称相同而被等同——即同名异义谬误;或者相反,两个相关的事物因标签不准确而被否定——即异名同义谬误。

他指出,诸如"常识"和"推理"等术语常用于描述AI的理解能力,但它们更可能仅反映AI识别模式或进行统计推断的能力。因此,将AI文本生成不协调地称为"创造性"或"智能"属于同名异义谬误的范畴,即使仅因AI缺乏"意识"而不公正地否定这些术语也是一种异名同义谬误。

王最喜欢研讨会上的一个环节叫做"共识光谱",它证明了困惑不仅存在于机器之间,也存在于科学家之间。在一次练习中,参与者通过走到房间的不同区域来实际定位自己,以显示对关于AI的故意有争议的"激进观点"陈述的相对支持或反对程度。

由人类组成的散点图揭示了一个严峻的事实——目前对于如何定义AI"推理"等概念,或者这样的概念是否作为AI系统的核心属性存在(使我们能够将广泛的行为归因于能够推理的系统),几乎没有共识。我们为人类概念化的推理可能与机器不兼容。

未来研究方向

研讨会接近尾声时,组织者概述了该领域的下一步计划。一个潜在成果是基于研讨会讨论和见解撰写一篇技术论文。此外,学者们将继续开发AI特征和术语图谱。

科耶约强调,这类研讨会的长期价值在于产生更可预测、更可靠的AI系统。"如果我们更好地理解这些工具,就能理解它们在各种环境中部署时的预期表现,"他说。更高的可预测性可能彻底改变AI模型在实际应用中的评估、优化和信任方式。

最终,研究人员一致认为,更好的AI测量的潜力远远超出学术范畴。它可能带来不仅更有能力,而且比过去更可靠、更透明的AI系统。这一进展可能加速开发安全、符合伦理且在多个领域更有益的AI技术。

在这样的背景下,研讨会迈出了重要的第一步:"努力以可能的方式统一该领域,在评估思维方面保持严谨和技术性,这令人兴奋,"王说。

"这个富有成效的过程帮助我们理解了应该测量什么,并开始理解如何测量,"科耶约补充道。"AI将因此变得更好。"

其他研讨会组织者包括:斯坦福大学研究生桑·张(Sang Truong)、麻省理工学院研究生张浩然,以及斯坦福HAI项目经理特雷西·纳维乔克。

Q&A

Q1:为什么AI能解决复杂方程却在简单数字比较上出错?

A:这反映了当前AI评估方法的缺陷。现有基准测试只检查AI是否给出正确答案,而无法测试其是否真正理解概念。AI可能只是识别模式或进行统计推断,而非真正掌握逻辑推理能力。这就像学生死记硬背答案却不理解原理一样。

Q2:什么是AI评估中的"同名异义与异名同义谬误"?

A:这是从心理测量学借用的术语。同名异义谬误指两个不相关的概念因名称相同而被等同,比如将AI的模式识别能力称为"推理"或"常识"。异名同义谬误则相反,指因标签不准确而否定相关事物,比如仅因AI缺乏意识就否定其所有智能表现。

Q3:如何建立更科学的AI能力评估体系?

A:研究人员提出借鉴心理测量学方法,从"AI能通过这个测试吗"转向"测试揭示了AI的什么潜在能力"。具体措施包括开发AI概念词典、建立类似认知图谱的知识库,以及创建能测量AI隐藏能力(如智能、逻辑和推理)的标准化基准测试体系,而不仅仅测试应试表现。

相关内容

热门资讯

永新:守护千家万户的“大水缸” “起飞!”随着指令的下达,一架无人机迅速升空,沿着水库岸线平稳飞行,对水库周边环境进行全景式扫描,实...
学习规划建议每日问答 | 如何... 新华社北京2月3日电 《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出:“加快智能电...
消息称华为在考察1:1方形传感... 2月3日消息,博主@数码闲聊站发文透露,华为(文中以“菊菊”指代)正在考察1:1比例的方形传感器,计...
以“数智”护航春运:重庆高速“... 为应对2026年春运大考,重庆高速全面建成“1+4路网运行数据智慧大脑”,以智慧化手段推动保通、保畅...
能做数学却答错大小比较:AI能... 斯坦福大学人类中心人工智能研究所(HAI)举办的一场研讨会汇聚了众多专家,共同探讨开发新的评估方法,...
科普丨一文读懂~康复辅助器具新... GB/T 16432—2025《康复辅助器具 分类和术语》于2025年6月30日正式发布并实施,该标...
“CCF走进深圳河套学院”系列... 2月2日,中国计算机学会(CCF)走进深圳河套学院暨“Agentic Intelligence fo...
河南嵩县山金公司优化湿式喷浆设... 近日,河南省洛阳市嵩县山金公司启动湿式喷浆台车施工工艺专项优化工作,聚焦工艺应用中的核心效率瓶颈开展...
丰德建设取得路基施工厚度控制装... 国家知识产权局信息显示,浙江丰德建设有限公司取得一项名为“一种路基施工厚度控制装置”的专利,授权公告...
山西:一个老牌工厂的“智”造突... 潞安化机智能化焊接机器人作业场景。陈阳摄 在潞安化工机械集团材料加工分公司焊接车间内,焊花依旧闪烁,...
苹果依然引领行业!iPhone... 快科技2月3日消息,虽然目前苹果的创新力已经远远不及当年乔布斯掌舵时期,很难呈现颠覆行业的创新,但依...
2025何梁何利奖揭晓,江苏3... 近日,何梁何利基金2025年度科学与技术奖评选结果揭晓。其中,江苏有3位科技工作者获奖。国家短波通信...
立春日期为啥“变来变去”?专家... 2月4日4时2分将迎来二十四节气之首:立春。而就在大约一年之前,2025年的立春则落在了2月3日这天...
麦田能源启动IPO辅导备案,加... 松果财经讯,近日,麦田能源在海外市场连获突破,其家庭储能及光伏逆变器产品在荷兰、南非、巴西等地新增多...
星空有约|立春日期为啥“变来变... 2月4日4时2分将迎来二十四节气之首:立春。而就在大约一年之前,2025年的立春则落在了2月3日这天...
艾科智泊取得停车场巡检无人机专... 国家知识产权局信息显示,深圳艾科智泊科技有限公司取得一项名为“停车场巡检无人机”的专利,授权公告号C...
至拓智能取得拨码开关全色域控制... 国家知识产权局信息显示,中山市至拓智能控制系统有限公司取得一项名为“一种拨码开关的全色域控制器”的专...
AI治理、具身智能……2025... 近日,中国科技新闻学会发布2025年度“十大科技热词”,包括:AI治理、具身智能、可控核聚变、脑机接...
同花顺:i问财升级为金融智能体... 证券日报网讯 2月3日,同花顺在互动平台回答投资者提问时表示,i问财依托公司多年积累的全品类、多维度...
全球首款!10米每秒!我国人形... 每经编辑|杜宇 据央视新闻,2月2日,浙江大学杭州国际科创中心人形机器人创新研究院正式向全球发布首...