小学数学题,大模型集体不及格!达摩院推出新基准VCBench
创始人
2025-05-23 12:21:39
0

VCBench团队 投稿

量子位 | 公众号 QbitAI

大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗?

拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:

闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。

why?

因为大模型可能并不能真正理解基本数学元素和视觉概念。

现有的视觉数学基准测试主要集中在知识导向的评估上,容易受到大型语言模型中预先嵌入的知识的影响。

上述结论来自达摩院推出的新基准VCBench——这是一个专为评估具备显式视觉依赖性的多模态数学推理任务而设计的综合基准。

该基准主要面向小学 1-6 年级的数学问题,即并不涉及复杂的数学或几何推理,但高度依赖于显式的视觉依赖性的问题。

论文标题:Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

VCBench现已全面开源,代码可见文末。

强调vision-centric而非knowledge-centric

与以往侧重知识评估的基准不同,VCBench更强调视觉为核心的评测。

它主要针对无需专业知识、而是依赖于对数学图像和概念的常见感知推理的问题。

这种方法与儿童的学习路径相符——他们首先掌握的是视觉推理能力,随后才逐步获取领域特定的知识

聚焦多图推理

VCBench聚焦于多图(interleave)的问题输入形式,每个问题平均包含3.9张图像,显著高于现有的多图Benchmark。

这种设计要求模型能够显式地整合来自多幅图像的视觉线索,并推理这些元素如何相互作用,这更符合现实世界中的情境——信息往往分散在多个视觉输入之中

全面评估纯视觉推理的多种能力

VCBench全面地评估了纯视觉推理的多种能力,涵盖了六大核心认知领域:时间与日历空间与位置感几何与形状物体与运动推理与观察以及组织与模式

综合实验分析结果

在VCBench的综合实验测试中,人类平均得分93.30%,显著优于所有AI模型,表明当前任务对人类而言可解,但对AI系统仍具挑战性;

闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表现最佳,但仍未突破50%准确率;

开源模型表现整体趋势低于闭源模型,且表现参差不齐,可能与架构差异、多模态整合程度或训练数据质量有关;

大模型在推理、找规律一类问题上表现较好,但在空间几何表现很差,说明在由小学数学题构建的评测基准中,大模型的逻辑推理能力是过剩的,但是视觉和几何感知则严重不足。

单图实验对照结果

VCBench的一个核心目标是评估模型多图像依赖的推理能力,但为了验证模型是否真正具备跨图像组合推理(compositional reasoning)而非依赖单图优化,需引入单图实验作为对照。

如下图所示,将文字和图片整合成一张大图。

单图和多图结果对比表明,除专为多图设计的模型外,大多数模型在单图场景下表现显著优于多图(平均提升42.3%)。

例如,Emu2-Chat单图性能飙升281.5%,Qwen-VL-Max提升21.3%,说明常规模型更擅长从孤立图像提取信息,但缺乏跨图像关联和时序推理等关键能力。

思维链(CoT)对模型性能的影响分析

VCBench团队在三个闭源模型上对比了加入CoT以后对模型性能的影响,得到如下结论:

2、效果具有任务依赖性:对感知型任务(如日历读取、方向判断)效果有限甚至产生干扰。这类任务更依赖直接视觉感知而非分步推理,CoT的中间步骤反而可能降低效率。

错误类型分布分析

错误类型可分为以下5种:

  • 1.视觉感知错误:模型对视觉内容的误读或未能准确感知;

  • 2.计算错误:算术计算过程中的失误;

  • 3.上下文误读:模型错误解读文本内容;

  • 4.逻辑错误:推理过程中的出错;

  • 5.答案整合错误:未能直接回答问题或提供多个相互冲突的答案。

通过分析,得到了如下结论:

1、视觉感知错误在所有模型中占比最高,是当前多模态模型最薄弱的环节。所有模型的视觉感知错误占比均超过50%,其中Gemini2-Flash高达62%。这表明基础视觉理解能力仍是当前多模态模型的主要瓶颈。

2、计算错误(4-7%)和上下文误解错误率普遍较低(3-6%),其中Gemini2-Flash(3%)和Claude(4%)表现最佳,而QVQ(6%)略高,可能反映其存在过度推理倾向。

3、逻辑推理能力在不同模型之间存在显著差异。Claude的逻辑错误率最高(33%),这反映了其推理稳定性在本基准中欠佳。

4、答案整合方面,GPT-4o的答案整合错误率最高(23%),可能因其探索性推理产生多个答案而牺牲了响应规范性。

论文链接:http://arxiv.org/abs/2504.18589

数据仓库:https://huggingface.co/datasets/cloudcatcher2/VCBench

代码:https://github.com/alibaba-damo-academy/VCBench

网页:https://alibaba-damo-academy.github.io/VCBench/

相关内容

热门资讯

【云梦西游】这才是2025年该... 最近被朋友安利了《云梦西游》,玩了一周彻底入坑!这游戏简直是把"良心"两个字写在脸上: 🚀 十分钟...
向产业前沿攻关 让供需双方碰撞 本报讯 (记者 徐冠英) 8月22日,2025年江苏省“J-TOP创新挑战季”信息通信产业专场活动在...
千年古镇“锁”馆焕新 苏州黄埭... 近日,位于苏州市相城区黄埭镇的中国锁具文化展馆完成智能升级,重新对外开放。公众提前预约后,即可进入场...
元脑智能申请故障确定相关专利 ... 金融界2025年8月23日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“故障确...
Double Fine正在推进... 尽管开发商Double Fine正准备发布其叙事冒险游戏《Keeper》,该工作室似乎也在推进其他项...
终于,无边框 iPhone 要... 今年 6 月,苹果在 WWDC 上公布了新一代 iOS 26 系统。 其中最大的新变化,就是名为「液...
《消逝的光芒:困兽》拥有系列迄... 在近期视频展示《消逝的光芒:困兽》(Dying Light: The Beast)残酷近战玩法后不久...
技术驱动下音乐产业的结构转型与... 同时,分发逻辑也从过去依赖中心化渠道转变为由算法驱动的长尾效应,个性化推荐机制使小众音乐获得了更多曝...
重庆荣昌:筑邦科技硅晶石陶板生... 8月20日上午,荣昌高新区广富组团的筑邦建筑科技(深圳)有限公司(下称“筑邦科技”)绿建产品生产车间...
探索宇宙,是人类对自身命运的思... 赵 刚 “欧几里得”空间望远镜拍摄的彩色图像。 欧洲航天局供图(新华社发) 我国揽月月面着陆器在...
想关免密支付为啥那么难 “关不掉”的免密支付,肥了平台的钱包? 近日,话题“一定要关闭免密支付和自动扣款”冲上社交平台热搜,...
月球“晚年”为何还有火山喷发?... 中新社北京8月23日电 (记者 孙自法)作为地球的一颗天然卫星,月球的起源演化备受关注。科学界普遍认...
贵阳贵安:数智赋能“强环境” ... 良好的营商环境是发展经济的“先手棋”。作为全国首个国家大数据综合试验区核心区,贵阳贵安正以敢为人先的...
“数”聚山西 “智”启新程 当前,人工智能热潮澎湃,智算革命扑面而来。见证着我国算力产业向实向新的发展进程,一场算力领域的顶级盛...
云南:打造“顶天”“立地”的科... 省委书记王宁为获得2024年度云南省科学技术杰出贡献奖的云南大学教授张喜光颁奖并讲话。 他指出,云南...
梦幻西游:仅鉴定5把武器就逆袭... 对于众多梦幻西游电脑版的玩家而言,观看主播们进行装备鉴定早已成为日常娱乐的一部分。其中,【生日快乐】...
原创 4... 4妹被遗忘了,黑神话钟馗即将上线,预告片12小时播放量突破900万,北京时间8月20日凌晨,2025...
梦幻西游:129凌波城,10锻... Hello大家好,我是浩仔! 关注浩仔,每天给你带来最新梦幻西游游戏资讯! 以下点评仅代表个人意见,...
原创 E... Elk小丑事件发酵,本人直言无所谓,网友扒出他早期黑料,在近期的LPL赛场上,IG对阵BLG的比赛成...
网游大佬的精神解药?6万一块的... 随着网络游戏成为最普及的大众娱乐方式,很多玩家也在游戏中大开眼界,见识到了跟自己不是同一阶层的土豪大...