大模型越来越强,上海也努力让大模型“考试”更专业、全面!
创始人
2025-07-21 11:21:47
0

大模型“考生”数量越来越多、能力越来越强,呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉,由其打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现,现今模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。

在这样的背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者,已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。

重塑AI能力刻度标准

记者获悉,在此次推出的“垂类应用评测模块”,当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

此外,具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发,构建“静态—仿真—实境”三层级评测路径,覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超200个大语言模型、150个多模态模型,覆盖300+评测集,工具链GitHub Stars超过1万。

据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单,工具链已集成至阿里云ModeScope、百度云在线评测服务等产品,持续赋能大模型产业生态;同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉,目前,司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

来源:新民晚报 作者:郜阳

相关内容

热门资讯

育碧认可《刺客信条:影》表现:... 《刺客信条:影》肩负重任,其必须取得成功才能帮助育碧摆脱危机。然而该作虽反响不错,但并未取得任何显著...
从数据到效率:云计算如何为制造... 时代在变更,科技在发展,而云计算正在不断被应用于各个行业的发展。此时此刻的云计算好像正在重塑着制造业...
众擎机器人连续完成Pre-A+... 来源:猎云网 近日,通用型人形机器人研发商众擎机器人(下称:众擎)完成两轮融资。其中,Pre-A++...
链博会盘点之一:哪些展台人气最... 7月16日-20日,第三届中国国际供应链促进博览会在北京举办。“六链一展区”于19日和20日免费向公...
中国队在世界杯夺冠了!是…… 被称为“机器人足球世界杯”的RoboCup正在巴西萨尔瓦多举办。 本届比赛采用“AI赛”,即机器人根...
这个盛夏来广州开打!DNF手游... 7月25至26日,在广东省新闻出版局、广州市文化广电旅游局指导支持下,DNF手游满级扩张充能营地快闪...
城市文脉的赓续与城市文明的构建 城市文脉的赓续与城市文明的构建 谢有顺 中山大学中文系教授,广东省作家协会主席 距今5000年前后,...
江华县新华书店开展“蒲公英悦读... 红网时刻新闻7月21日讯(通讯员 胡菲菲)假期,是孩子探索世界的黄金期,也是家长满心期待的成长契机。...
宇树IPO、智元“借壳”,机器... 机器人大浪来袭! 此前不久,智元机器人拟通过公司及核心团队共同出资设立的持股平台,以协议转让和要约收...
19年的等待!中国战队天禄拿下... 7月21日凌晨,中国战队TYLOO天禄在塞尔维亚贝尔格莱德举行的FISSUREPlayground1...
华为擎云以“全链路健康管理”破... 【环球网科技报道 记者 张阳】7月18日至20日,2025(19th) 中国卫生信息技术/健康医疗大...
中国测绘科技登上珠峰 背后是国... 华测导航自主研制的P5北斗高精度GNSS接收机(左下)在珠峰峰顶完成测量任务。本文均为 受访者 供图...
风靡的“血色海龟汤”与小学生们... “一个马戏团里有两个侏儒,可是这天早上有一个侏儒在家自杀了,现场还有一地木屑,你猜为什么?” “他俩...
链博会观察|科创背后的金融力量... 在今年的链博会上,高新技术、AI机器人随处可见。如比人手更加灵活的机械手、小型飞机上的电池产品……而...
Netflix宣布加大游戏投资... 在关闭由《光环》资深制作人的3A工作室后,流媒体巨头Netflix(网飞)在最新财报会议中确认将提升...
7月22日至23日凌晨 金星伴... 7月22日至23日凌晨,金星和木星将先后与一弯残月近距离相伴,届时只要天气晴好,感兴趣的公众用肉眼即...
新动力电子取得自动上料的超声波... 金融界2025年7月21日消息,国家知识产权局信息显示,东莞新动力电子有限公司取得一项名为“自动上料...
AL鏖战五局惜败GEN,获电竞... 北京时间7月21日凌晨,在沙特利雅得举行的2025电竞世界杯英雄联盟项目决赛中,LPL(中国大陆赛区...