模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
创始人
2025-09-06 10:42:04
0

当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。

在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。

针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。

《大模型选型说明书》界面预览

能力和场景精准匹配

首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。

语言大模型“能力类别-能力等级-应用场景”关系映射图

典型模型能力等级评定

针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。

典型模型能力评测结果展示

选型使用说明书构建

基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。

“典型模型-能力类别-能力等级-应用场景”关系图谱

应用赋能和迭代更新

《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。

目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。

联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。

相关内容

热门资讯

原创 r... 近日,一场名为“魔法工艺人机大战”的AI vs UP主限时通关挑战赛引发全网热议。值此《魔法工艺》手...
千锤百炼酣畅淋漓!倩女端游的“... 大家常说一个词——“爽游”。那么问题来了,什么样的游戏才算“爽”呢?答案就是玩起来畅快淋漓、毫无压力...
180秒,让科研“破圈” □ 本报记者 杨频萍 程晓琳 180秒,一张静态PPT,要讲透数月乃至数年的深度研究,这看似是一项不...
原创 豆... 从「万众瞩目」到「跌下神坛」,豆包手机就用了半个月。 12月14日时,有媒体发现,三天前二手市场上还...
快手“渡劫”:失控的三小时、下... 文/窦文雪 编辑/子夜 12月22日深夜,快手或许是度过了平台上线以来最漫长的三个小时。 当日晚22...
傅利叶智能取得机器人零力拖拽示... 国家知识产权局信息显示,上海傅利叶智能科技股份有限公司取得一项名为“机器人零力拖拽的示教方法及系统”...
解码冰雪经济新动能|冰雪装备制... 火热的冰雪运动带动了对冰雪场地和冰雪装备的需求。 近年来,随着冰雪装备自主研发能力不断提升,在河北...
新能源头部企业总部落户武汉长江... 近日,天钠科技总部落户长江新区。天钠科技成立于2017年,公司在庐江、阜阳、大同、遂宁有四大生产基地...
天娱数科参股公司芯明加入美团“... 观点网讯:12月23日,据天娱数科公众号消息,其参股公司芯明加入美团“低空航网领航计划”。 据披露,...
全球首发!瀚天天成12英寸Si... 近日,瀚天天成全球首发12英寸碳化硅外延晶片。 作为宽禁带半导体的核心材料,SiC外延晶片是制造高压...
新一代开源基础软件加速落地 腾... 证券时报记者 吴瞬 12月23日,由Linux基金会托管的新一代开源基础软件项目Valkey最新版本...
国机精工:公司2015年开始布... 证券日报网12月23日讯 国机精工在接受投资者提问时表示,金刚石产业目前主要分为结构化应用和功能化应...
科技昨夜今晨1224:罗永浩时... “科技昨夜今晨”时间,大家好,现在是 2025 年 12 月 24 日星期三,今天的重要科技资讯有:...
报告显示生产性服务业呈现五大演... 近日,中国信息通信研究院政策与经济研究所发布了《生产性服务业发展报告(2025年)》。报告认为,生产...
“光影绽放科技行”清华站圆满落... 人民网北京12月23日电 (记者赵竹青)据国家国防科技工业局官网消息,由国家国防科技工业局新闻宣传中...
“空中汽车”上路标准统一在即,... 界面新闻记者 | 刘素楠 界面新闻编辑 | 庄键 中国低空经济发展又迈出关键一步。 近日,中国民...
原创 F... 最近这段时间,LPL赛区忙着打德杯,不过现在打下来,组成豪华战舰的几支队伍BLG、JDG、WBG都相...
多款3A游戏史低,Steam冬... 这个圣诞,常年关注PC游戏促销动态的小伙伴,大概被海量介绍Steam促销活动的视频刷屏了——“大作背...
华昌达:自主研发制造系统数字化... 证券之星消息,华昌达(300278)12月23日在投资者关系平台上答复投资者关心的问题。 投资者提问...
成神还是入魔?都由你决定!《新... 小时候看动画片时,你是否曾在为主角匡扶正义而热血沸腾的同时,也对那些同样不懈奋斗却终被打败的反派生出...