大模型越来越强,上海也努力让大模型“考试”更专业、全面!
创始人
2025-07-21 11:21:47
0

大模型“考生”数量越来越多、能力越来越强,呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉,由其打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现,现今模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。

在这样的背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者,已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。

重塑AI能力刻度标准

记者获悉,在此次推出的“垂类应用评测模块”,当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

此外,具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发,构建“静态—仿真—实境”三层级评测路径,覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超200个大语言模型、150个多模态模型,覆盖300+评测集,工具链GitHub Stars超过1万。

据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单,工具链已集成至阿里云ModeScope、百度云在线评测服务等产品,持续赋能大模型产业生态;同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉,目前,司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

来源:新民晚报 作者:郜阳

相关内容

热门资讯

桂林鸿程取得外置卧式多头分级机... 国家知识产权局信息显示,桂林鸿程矿山设备制造有限责任公司取得一项名为“一种外置卧式多头分级机”的专利...
真的建议你睡前关掉WiFi,不... 它几乎存在于每个家庭 还常年不断电 没有它你可能还会焦虑 它,就是WiFi路由器 据中国新闻网报道 ...
小米17:旗舰机市场销量领跑,... 在2025年的旗舰机市场,小米17系列以破竹之势席卷而来,不仅销量数据屡创新高,更以“技术普惠”的理...
昆明文理学院举办“AI赋能语言... 近日,“AI赋能语言教学与国际传播”研讨会暨云南教育国际交流协会民办高校专家委员会第三次会议在昆明文...
建霖健康取得易于更换滤芯的装置... 国家知识产权局信息显示,厦门建霖健康家居股份有限公司取得一项名为“一种易于更换滤芯的装置”的专利,授...
有色金属行业积极推动人工智能大... 从过去采矿凭经验到如今实现智慧勘探,从昔日冶炼靠手艺到如今实现AI精准调控,从以往粗放加工到如今大数...
原创 越... 越南开国功臣武元甲晚年说:若非黎笋固执,中越根本不用打那一仗。这话一出来,不知道戳中了多少经历过那段...
申彦通讯取得丝印定位工装专利,... 国家知识产权局信息显示,上海申彦通讯设备制造有限公司取得一项名为“一种丝印定位工装”的专利,授权公告...
浦东具身智能企业跻身全球第一梯... 来源:市场资讯 (来源:上观新闻) 12月26日,浦东具身智能企业——艾利特机器人发布全新复合机器人...
俄罗斯团体评年度热词 “拉布布... 新华社莫斯科12月28日电(记者栾海)临近岁末,俄罗斯多家团体评选出本国2025年度热词,“胜利”、...
我不是被运营商收买了,我就是运... 最近网络之争,引来很多水军的攻击,其中我就看到一种说法,项立刚是被三大电信运营商收买了,为电信运营商...
梁定邦:人工智能年增速约30%... 来源:金融一线 12月28日金融一线消息,中国财富管理50人论坛2025年会在京召开,本届年会的主题...
红桥区6个行业高质量数据集全部... 近日,天津市2025年行业高质量数据集名单发布,红桥区数据局组织推荐的6个数据集均成功入选,覆盖工业...
我国交付国际热核聚变实验堆IT... 新华社合肥12月28日电(记者戴威、何曦悦)28日,由中国科学院合肥物质科学研究院等离子体物理研究所...
互联网运营优化三大模式:百度、... 互联网运营, 百度是基于权重和成本模型, 抖音头条则单内容作战×千人千面的神经模型, ...
郑州师范学院第二附属小学第二届... 大象新闻记者 李书恒 通讯员 李琪/文图 冬日暖阳映校园,科技之光耀童心。12月26日,郑州师范学院...
泽恩五金取得空芯插针端子专利,... 国家知识产权局信息显示,东莞市泽恩五金制品有限公司取得一项名为“一种空芯插针端子”的专利,授权公告号...
人形机器人产业,大利好! 12月26日,工业和信息化部人形机器人与具身智能标准化技术委员会(以下简称“标委会”)成立大会在京举...
筑牢伦理根基 让人工智能翻译传... (来源:中国改革报) 转自:中国改革报 □ 易曼 每一门语言都是人们在特定地域、经过漫长的历史和生活...
美林美育大课堂走进社区 | 萌... 当传统生肖文化邂逅指尖创意,当专业艺术资源走入寻常邻里,会碰撞出怎样的温暖火花?近日,北京韩美林艺术...