大语言模型数学计算能力仍然堪忧
创始人
2026-02-28 03:42:09
0

当前的大语言模型本质上是预测引擎,只能找到问题的最可能解决方案,而非必然的正确答案。尽管主流模型的数学能力已有所提升,但即便是表现最佳的Gemini 3 Flash,如果用字母等级评估,也只能获得C级成绩。

隶属于在线计算器制造商Omni Calculator的研究人员使用该公司的ORCA基准测试对一系列新的AI模型进行了评估,该测试包含500道实际数学问题。

在去年11月的初始评估中,OpenAI的ChatGPT-5、Google的Gemini 2.5 Flash、Anthropic的Claude Sonnet 4.5、xAI的Grok 4和DeepSeek的DeepSeek V3.2(alpha版本)在数学问题上的表现都很糟糕,得分均在63%或以下。

最新一轮的测试对象包括ChatGPT-5.2、Gemini 3 Flash、Grok 4.1和DeepSeek V3.2(稳定版)。由于Sonnet 4.5在测试期间没有变化且后续版本尚未发布,因此没有重新评估。

在第二轮测试中,除了Grok-4.1出现倒退外,所有模型都显示出改善。

Gemini 3.1 Flash的准确率达到72.8%,比前代提高了9.8个百分点。DeepSeek V3.2达到55.2%,比alpha版本提高3.2个百分点。ChatGPT 5.2实现了54.0%的准确率,提高了4.6个百分点。而Grok 4.1则下滑至60.2%,下降了2.6个百分点。

ORCA研究员Dawid Siuda在声明中表示:"计算器是可预测的。今天问它一个问题,明年再问同样的问题,答案保持不变。AI不是这样工作的。这些系统基于模式预测下一个最可能的词。从数学角度来说,模型今天答对一个问题,明天答错是完全可能的。"

研究人员尝试用一个名为"不稳定性"的指标来评估模型响应的可变性——衡量模型在被问及同一问题两次时改变答案的频率。

Gemini 3 Flash证明最为一致,错误回答中只有46.1%会发生变化。研究人员报告称,ChatGPT在65.2%的时间里会改变答案。而DeepSeek V3.2在68.8%的错误中会改变答案。

ORCA研究人员注意到,模型性能随时间的改善在不同领域存在差异。他们表示,DeepSeek在生物与化学问题上的表现从10.5%的准确率提升到43.9%。Gemini 3 Flash在数学与转换方面的准确率达到93.2%,从83%提升而来。而Grok 4.1在健康与体育问题的准确率下降了9个百分点,在生物与化学方面下降了5.3个百分点。

研究人员推测,Grok最近的更新可能优先考虑了定量推理以外的其他能力。

研究人员注意到,计算错误现在占所有错误的39.8%,从33.4%上升,而四舍五入错误下降至25.8%,从34.7%下降。ORCA小组得出结论,AI模型在通过格式化让数学看起来正确方面越来越好,但在算术方面仍然困难重重。

"AI模型本质上是预测引擎而非逻辑引擎,"Siuda在给The Register的电子邮件中说道。"因为它们基于概率工作,它们基本上是根据之前见过的模式猜测下一个最可能的数字或单词。这就像一个学生记住了数学书中的每个答案,但从未真正学会如何加法。"

Siuda表示,我们之前就知道模型的这个特点,这一点没有改变。

"它们可能大部分时间能得到正确答案,但一旦你给它们一个独特或棘手的问题,或者多步骤任务,它们就会跌跌撞撞,因为它们实际上并没有真正计算任何东西,"他说。"用当前技术完全缩小这个差距可能是不可能的,但如果我们将大语言模型与函数调用充分结合,可能有解决的可能。"

函数调用——将算术外包给确定性来源——是解决模型数学处理能力差的一种方法。

"像Google和OpenAI这样的主要AI公司已经在这样做,让AI调用函数来进行实际计算,"Siuda解释道。"真正的头疼发生在长而复杂的问题上。AI必须跟踪每个阶段的每个小结果,通常会被压倒或困惑。"

另一个可能的改进途径可能是教导模型通过形式化证明来验证回应。正如去年11月《自然》杂志所述,Google的DeepMind开发了一种方法,通过基于使用Lean编程语言和证明助手开发的证明的强化学习,在国际数学奥林匹克竞赛中获得了银牌成绩。

但目前来说,不要相信任何AI。

Q&A

Q1:ORCA基准测试是什么?它如何评估AI模型?

A:ORCA基准测试是由Omni Calculator公司开发的评估工具,包含500道实际数学问题。研究人员用这个测试来衡量AI模型处理数学计算的能力,测试结果显示即便是表现最好的模型也只能达到70%左右的准确率。

Q2:为什么AI模型在数学计算上表现不好?

A:AI模型本质上是预测引擎而非逻辑引擎,它们基于概率工作,根据之前见过的模式猜测下一个最可能的数字或单词。就像学生记住答案但没学会计算方法一样,AI可能今天答对明天答错同一个问题。

Q3:如何改善AI模型的数学计算能力?

A:主要有两种方法:一是函数调用,让AI调用外部计算器进行实际计算;二是教导模型通过形式化证明验证回应。Google和OpenAI等公司已经在使用函数调用方法,但在处理复杂多步骤问题时仍面临挑战。

相关内容

热门资讯

2025年微博热点趋势报告:活... 今天分享的是:2025年微博热点趋势报告:活人感 报告共计:34页 微博年度趋势揭示“活人感”当道:...
大语言模型数学计算能力仍然堪忧 当前的大语言模型本质上是预测引擎,只能找到问题的最可能解决方案,而非必然的正确答案。尽管主流模型的数...
我眼中的“两为” | 无锡滨湖... 编者按: 省自然资源厅“为发展担当实干 为群众排忧解难”主题活动开展一年来,全省自然资源工作者和企业...
内存涨价,正在“杀死”国产千元... 现在的千元机市场,正陷入前所未有的成本挑战。 根据市场研究机构TrendForce发布的最新数据,手...
安一福电子取得锂电池电压测试机... 国家知识产权局信息显示,东莞市安一福电子科技有限公司取得一项名为“一种锂电池电压测试机”的专利,授权...
Omdia:时隔5年,小米去年... IT之家 2 月 27 日消息,北京时间今晚,Omdia 公布的最新数据显示,2025 年全球可穿戴...
韩索智能取得可收纳式双扬声器音... 国家知识产权局信息显示,广州韩索智能科技有限公司取得一项名为“一种可收纳式双扬声器音响系统”的专利,...
铜陵力辰取得翻包机翻转机构专利... 国家知识产权局信息显示,铜陵力辰智能装备有限公司取得一项名为“一种翻包机的翻转机构”的专利,授权公告...
腾讯科技申请模型微调方法专利,... 国家知识产权局信息显示,腾讯科技(深圳)有限公司申请一项名为“模型微调方法、装置、存储介质、设备及程...
2026,AI开始制造社会性e... 文 | 长三角MOMO 短期内,法律可以保护和规范,但是中长期来看,融合和接受才是必然。 最近在社...
扬州经开区以科技创新引领新型工... 原标题: 扬州经开区以科技创新引领新型工业化 最高400万元 重奖科创先锋 2月26日,在晶澳扬州基...
地方成立人工智能局 从机构新设... 来源:中国新闻网 中国城市间的竞争,正在被一个新机构设立所搅动。 据不完全统计,自2025年5月以来...
谷歌员工联名反对Gemini涉... AIPress.com.cn报道 2月27日消息,围绕人工智能军用边界的争议正在硅谷持续发酵。超过1...
陇南:春潮涌动成州地 实干冲刺... 新春年味尚浓,陇南成县迅速切换“奋斗模式”,各企业车间内已是机器轰鸣、产线高速运转,争分夺秒抢进度,...
雷军称高度重视安全体系建设,小... IT之家 2 月 27 日消息,今日晚间,小米创办人、董事长兼 CEO 雷军在直播中强调,小米造车以...
AI眼镜市场持续扩容!互联网大... 在AI产品热度持续攀升的背景下,各大互联网巨头正加速布局智能硬件领域。 2月27日,券商中国记者第一...
DeepSeek联合北大、清华... 观点网讯:2月27日,DeepSeek团队发布了一篇新的学术论文。 这篇论文由DeepSeek联合北...
西北零碳智慧云智算中心项目开工... 近日,西北零碳智慧云智算中心项目前期筹备工作取得阶段性成果,核心建设条件及相关审批手续已全部落实到位...
2月152款版号:三七灵犀莉莉... 2月27日,国家新闻出版署官网发布了最新一批网络游戏版号名单。 本次共有146款国产网络游戏与6款进...
瑞斯通取得移动通信设备保护机构... 国家知识产权局信息显示,深圳市瑞斯通通信有限公司取得一项名为“一种移动通信设备用的保护机构”的专利,...