聚焦WAIC 2025|数据标注化身AI燃料厂 赋能各类AI+场景落地
创始人
2025-07-28 10:22:05
0

(记者 张苏慧)7月26日-29日,WAIC 2025在上海举行。在中国电信展台上,“方言语音高质量数据集”吸引了不少参观者驻足——当人们享受着智能手机精准的语音识别、惊叹于自动驾驶汽车在复杂路况中的从容表现、或是依赖电商平台“猜你喜欢”的精准推送时,或许未曾想到,这些人工智能(AI)应用背后,正依赖着一个庞大而基础性的产业支撑,这正是数据标注。

图为中国电信展台展示的“方言语音高质量数据集”

数据制约大模型发展

当前人工智能产业正陷入一场严峻的数据饥渴危机——斯坦福AI指数最新报告显示,全球AI数据需求正以每年230%的指数级速度激增,而大模型参数规模更保持着每12个月增长10倍的惊人速度。这种“数据饥渴”背后暗藏隐患:若没有高质量数据的持续“喂养”,再先进的算法也终将沦为无米之炊。更严峻的是,数据标注成本已占AI模型训练总成本的35%以上,超越算力投入成为最大开销项。OpenAI内部测算表明,GPT-4训练消耗的10万亿token中,超过60%需经过人工标注处理,这意味着每训练一个前沿大模型,背后都是海量人工标注资源的支撑。

因此,在国内,数据标注产业呈现爆发式增长。IDC预测2025年中国AI数据服务市场规模将突破120亿元,年复合增长率高达47.2%。国家数据局副局长余英在2025数博会上明确表示:数据,特别是高质量、多模态、精标注的数据,是人工智能发展的不竭动力,并宣布构建数据标注+高质量数据集+模型+应用场景+市场化价值化闭环生态的战略方向。

高质量数据集是技术创新燃料

当前,虽然业内专家普遍认为,数据资源的短缺成为制约大模型持续创新的核心瓶颈,但一个不容忽视的现实是,大多数行业大模型正面临着训练数据质量缺陷的重大挑战。正如蚂蚁集团CTO何征宇在OceanBase开发者大会上提出,数据的广度与深度直接限制了大模型能力的天花板。面对这一行业痛点,中国电信深刻认识到“无高质量数据,则无强人工智能”的发展规律,因此在打造高质量数据集下足了功夫。

此次中国电信展台展出的“方言语音高质量数据集”依托中国电信发布的星海•多模态数据标注平台,通过AI辅助自动化标注技术,准确率超过92%,效率相比人工提升了17倍。依托这一技术,可以构建50万小时的高质量方言数据集,打造方言数据模型,赋能各种智能热线,使其能听得懂不同区域、不同民族的群众语言。

此外,中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。支撑落地政务服务热线、医疗问诊、文化导引、助农直播等场景,真正“听懂”群众需要,提升座席人员工作效率超20%,该项目入选GSMA全球移动通信系统协会运营商实践AI大模型赋能垂直行业标杆案例。

从国家战略层面看,数据标注产业正迎来政策红利期。国家数据局正在指导合肥、成都等7个城市建设数据标注基地,通过先行先试探索产业发展的最佳路径。数据显示,截至今年上半年,这7个数据标注基地已累计建设数据集524个,服务大模型163个,初步形成了规模化发展态势。在这一国家战略布局中,中国电信积极参与国家级数据标注基地建设,目前已成功在成都、沈阳、保定3个标注基地实现技术落地。以河北保定项目为例,中国电信保定分公司联合保定市数据局、高新区、中电信人工智能科技(北京)有限公司,在技术创新、行业赋能、产业培育、人才培养、基地运营等五个维度展开全方位合作。项目团队围绕大规模多模态数据,打造智能数据标注生成管理平台,实现数据从采集到模型部署的全流程自动化,大幅提升数据集生产效率,降低AI模型训练门槛。

值得一提的是,中国电信的《多模态数据自动化标注与增强平台》和《视觉大模型自动标注一站式生产运营》成功入选国家数据局数据标注优秀案例,不仅展现了中国电信在数据标注技术创新和应用落地方面的领先实力,也为人工智能产业提供了高质量数据支撑的典型范例。

高质量数据集赋能AI+场景应用落地

目前,中国电信星辰MaaS平台构建起“算力-模型-数据-工具-应用”全链条AI服务能力,集成超80个行业大模型以及50多个高质量数据集,能够一站式满足用户多云算力调度、数据标注处理、大模型训推、行业智能体应用需求,深度赋能央企AI+场景应用落地。已在中车集团等10余个央企落地应用,涵盖能源、工业、交通、住建等多行业。

在新型工业化领域,利用“翼云控+工业大模型”推动产线智能改造,大幅提高智能加工、物流分拣、视觉质检等环节的生产效率。例如,在某大型制造业企业中,通过部署星辰工业大模型,设备故障率降低了30%,生产效率提升了25%,产品次品率降低了15%,为企业节省了大量的成本,提升了市场竞争力。

在教育领域,打造校园帮办大模型解决学校系统人性化难题。为院校打造专属问答助手,整合了知识管理、智能问答和数据分析等一体化服务功能,使师生服务效率提升40%,知识文档优化率提升40%,目前已落地广西、甘肃等多所院校,服务数万名师生。心理健康大模型则通过多轮情感对话赋能校园心理健康,为学生提供情绪疏导服务。据数据显示,该大模型专业度测评高达91.7%,心理服务应答效率提升60%。

在交通领域,与中车集团合作,通过“息壤”平台提供算力调度支持,定制开发整车仿真、安全监测、乘客服务等12个场景的行业大模型,助力中车的核心生产环节智能化升级,共同打造交通领域的行业应用标杆。

在政务领域,打造的星辰政务大模型已在上海、江苏等多地应用落地,大幅提升热线运营效率和市民感知,未来将面向全国推广。

在应急领域,与依图科技联合推出应急预警视觉大模型,可快速识别出180+风险隐患和灾害场景,广泛服务于各级应急管理单位和应急救灾工作。

图片来源:林碧涓/摄

相关内容

热门资讯

Steam账号注册验证难题?这... 在Steam这一全球广受欢迎的游戏平台上,新用户注册流程中的人机验证环节常常成为不少玩家的“拦路虎”...
国内第一案! 《王者荣耀》匹配... 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 文|《BUG》栏目 罗宁...
我国成功研制月壤打砖机 建造“... 近日,我国首台月壤打砖机在深空探测实验室研制成功,这种打砖机可以利用聚光太阳能将月壤熔融成型,未来可...
“除农残”成高端冰箱标配功能,... 如今,家用电器的功能研发、设计越来越注重迎合消费者追求绿色健康的需求。比如冰箱,近年来就出现了主打“...
小米15系列手机盘点推荐:全能... 作为小米数字系列的年度旗舰,小米15和小米15 Pro再次以全方位的顶级配置、突破性的技术创新和极具...
英配还有两个版本?网友发现《明... 505 Games和灵泽开发的类魂动作角色扮演游戏《明末:渊虚之羽》的PS5评测版本,其部分角色的英...
两轮车和无人机将加速“氢”装上... 侯树文 记者 王春 “后化石能源时代,在核聚变尚未到来之际,氢能是能源转型的关键载体。”近日,“氢能...
WAIC直击:希捷驱动数据新时... 7月26日,海量数据存储解决方案的领先创新者希捷科技携前沿数据存储技术亮相以“智能时代同球共济”为主...
《明末:渊虚之羽》好评率升至3... 《明末:渊虚之羽》于7月24日发售后,由于优化糟糕、豪华版奖励发错等问题,导致大量差评出现,Stea...
《四海兄弟》开发商发布招聘信息... 广受期待的系列回归之作《四海兄弟:故乡》距离发售仅剩一周时间。尽管近期流出的实机视频显示游戏画面有所...
【环时深度】美政策收紧,印度海... 【环球时报记者 苑基荣 环球时报驻印度特约记者 米小丫】编者的话:“我们需要美国科技公司全力支持美国...
开炮游戏《PVKK》将亮相20... 炫酷“大玩具”首次公开亮相! 2025年7月24日,伦敦 —— 独立游戏工作室 Bippinbits...
武侠模拟养成RPG《明镜江湖行... 武侠模拟养成RPG《明镜江湖行:朔风起》Steam页面上线,定于2026年第一季度发售。本作由国内独...
国家大剧院“第二现场”再升级 7月19日晚,国家大剧院舞台艺术“第二现场”迎来突破,世界经典歌剧《费加罗的婚礼》通过4K超高清+5...
游戏ETF(516010)涨超... 江海证券指出,传媒行业近期催化不断,AI应用持续推动行业发展。5月中国游戏市场表现略超预期,政策支持...
人工智能技术让美好生活加速“智... 邦邦机器人产品亮相德国杜塞尔多夫康复展。邦邦机器人供图 在浙江义乌国际商贸城的一家商铺内,商户展示...
中国移动放大招!灵犀智能体2.... 7月27日,在2025世界人工智能大会期间,中国移动在上海举办了灵犀智能体2.0发布会,正式发布新一...
科大讯飞亮相WAIC 2025... 来源:证券之星官方微博 证券之星 李若菡 7月26日,以“智联万物,端启未来”为主题的WAIC 20...
Faker续写传奇:与T1续约... 在电子竞技的璀璨星河中,一颗恒星继续照亮前路。Faker,这位《英雄联盟》的传奇人物,李相赫,已与T...
原创 目... 谁说预算有限就得忍受卡顿与妥协?如今千元机市场早已脱胎换骨,涌现出多款性能强悍、体验全面的实力派选手...