能做数学却答错大小比较：AI能力评估方法亟待革新_游戏资讯

能做数学却答错大小比较：AI能力评估方法亟待革新

创始人

2026-02-03 19:21:46

0次

斯坦福大学人类中心人工智能研究所（HAI）举办的一场研讨会汇聚了众多专家，共同探讨开发新的评估方法，以测量AI的隐藏能力，而不仅仅是其应试表现。

让人工智能创作一首十四行诗或求解复杂的微分方程，它能展现出惊人的能力，但与此同时，它也可能坚称2.11大于2.9。

这些不协调且令人困惑的回答，促使一组AI研究人员——包括施密特科学中心AI研究所驻所研究员奥拉瓦莱·萨劳丁、斯坦福大学计算机科学助理教授桑米·科耶约，以及康奈尔大学信息科学助理教授安杰丽娜·王——在斯坦福人类中心人工智能研究所召开研讨会，讨论和辩论如何更好地测量AI的内在能力和特征。该研讨会由施密特科学中心和麦克阿瑟基金会资助。

"这项工作十分必要，因为我们经常在没有科学依据的情况下，将人类特征和相关行为强加到这些非人类系统上，"萨劳丁说。"AI模型很可能拥有与人类截然不同的一套行为解释特征，尽管它们可能会模仿人类行为。"

"更好的测量是实现更安全、更可靠的人工智能的关键，"科耶约解释道，"我们需要为AI系统建立一门测量科学，就像从物理学到学习科学等领域那样。但现在，这门科学还不存在。"

当前AI评估的问题

每次训练新模型时，都会对其进行一系列问题测试，并根据其回答的好坏进行评分。但这些问题无法评估AI那些难以测量的隐藏能力，如智能、逻辑和推理。尽管目前有数千个基准测试题库可用，但科耶约表示，大多数题库要么存在缺陷，要么无法胜任测量当今日益复杂的模型的微妙技能。

组织者表示，这次基准测试研讨会对AI的未来至关重要。它汇集了来自学术界、产业界、非营利组织和政策领域的专家，共同回答一个迫在眉睫的问题："当我们对AI系统进行基准测试时，我们实际上在测量什么？"

他们更大的目标是激发整个领域的努力，开发一套稳健、准确和标准的基准测试，以测量AI对其所提供答案的理解程度。王将此与心理测量学进行了类比，心理测量学是心理学的一个分支，试图测量智能和推理等隐藏品质。

正如心理测量学测试人类学生是否理解数学背后的概念，而不仅仅是记忆答案，当前的AI基准测试只检查AI是否给出正确答案。它可能在测试中得"A"，但却错过了更重要的要点。

"AI基准测试能很好地测试特定的客观任务和知识，但无法测试潜在的特征和能力，"王说。

借鉴心理测量学的方法

基于心理学和神经科学数十年的测量科学积累，此次基准测试研讨会旨在弥合AI领域的这一差距。与会者讨论了当前基准测试的质量和有效性，探讨了AI的潜在特征是否可以被测量，并辩论了推理等人类概念是否适用于AI。一些组织者已经开始创建"AI概念词典"，作为为AI开发类似认知科学领域"认知图谱"的早期步骤——一个协作创建和管理的知识库，反映整个领域的最新和最佳思想。

"在其历史早期，心理学也面临着测量看似无法测量特征的类似挑战，"科耶约指出。"该领域发展出心理测量学，通过多项测试的模式推断'潜在特征'。AI需要类似的方法——从'AI能通过这个实际测试吗？'转向'这个测试揭示了AI的什么潜在能力？'"

萨劳丁以研讨会上的热门话题"同名异义与异名同义谬误"为例，这个术语借用自心理测量学，指两个不相关的概念因名称相同而被等同——即同名异义谬误；或者相反，两个相关的事物因标签不准确而被否定——即异名同义谬误。

他指出，诸如"常识"和"推理"等术语常用于描述AI的理解能力，但它们更可能仅反映AI识别模式或进行统计推断的能力。因此，将AI文本生成不协调地称为"创造性"或"智能"属于同名异义谬误的范畴，即使仅因AI缺乏"意识"而不公正地否定这些术语也是一种异名同义谬误。

王最喜欢研讨会上的一个环节叫做"共识光谱"，它证明了困惑不仅存在于机器之间，也存在于科学家之间。在一次练习中，参与者通过走到房间的不同区域来实际定位自己，以显示对关于AI的故意有争议的"激进观点"陈述的相对支持或反对程度。

由人类组成的散点图揭示了一个严峻的事实——目前对于如何定义AI"推理"等概念，或者这样的概念是否作为AI系统的核心属性存在（使我们能够将广泛的行为归因于能够推理的系统），几乎没有共识。我们为人类概念化的推理可能与机器不兼容。

未来研究方向

研讨会接近尾声时，组织者概述了该领域的下一步计划。一个潜在成果是基于研讨会讨论和见解撰写一篇技术论文。此外，学者们将继续开发AI特征和术语图谱。

科耶约强调，这类研讨会的长期价值在于产生更可预测、更可靠的AI系统。"如果我们更好地理解这些工具，就能理解它们在各种环境中部署时的预期表现，"他说。更高的可预测性可能彻底改变AI模型在实际应用中的评估、优化和信任方式。

最终，研究人员一致认为，更好的AI测量的潜力远远超出学术范畴。它可能带来不仅更有能力，而且比过去更可靠、更透明的AI系统。这一进展可能加速开发安全、符合伦理且在多个领域更有益的AI技术。

在这样的背景下，研讨会迈出了重要的第一步："努力以可能的方式统一该领域，在评估思维方面保持严谨和技术性，这令人兴奋，"王说。

"这个富有成效的过程帮助我们理解了应该测量什么，并开始理解如何测量，"科耶约补充道。"AI将因此变得更好。"

其他研讨会组织者包括：斯坦福大学研究生桑·张（Sang Truong）、麻省理工学院研究生张浩然，以及斯坦福HAI项目经理特雷西·纳维乔克。

Q&A

Q1：为什么AI能解决复杂方程却在简单数字比较上出错？

A：这反映了当前AI评估方法的缺陷。现有基准测试只检查AI是否给出正确答案，而无法测试其是否真正理解概念。AI可能只是识别模式或进行统计推断，而非真正掌握逻辑推理能力。这就像学生死记硬背答案却不理解原理一样。

Q2：什么是AI评估中的"同名异义与异名同义谬误"？

A：这是从心理测量学借用的术语。同名异义谬误指两个不相关的概念因名称相同而被等同，比如将AI的模式识别能力称为"推理"或"常识"。异名同义谬误则相反，指因标签不准确而否定相关事物，比如仅因AI缺乏意识就否定其所有智能表现。

Q3：如何建立更科学的AI能力评估体系？

A：研究人员提出借鉴心理测量学方法，从"AI能通过这个测试吗"转向"测试揭示了AI的什么潜在能力"。具体措施包括开发AI概念词典、建立类似认知图谱的知识库，以及创建能测量AI隐藏能力（如智能、逻辑和推理）的标准化基准测试体系，而不仅仅测试应试表现。

上一篇：丰德建设取得路基施工厚度控制装置专利，精准调节路基施工厚度

下一篇：以“数智”护航春运：重庆高速“1+4”智慧大脑构筑平安畅行路

能做数学却答错大小比较：AI能力评估方法亟待革新

相关内容

热门资讯