聚焦WAIC 2025|数据标注化身AI燃料厂 赋能各类AI+场景落地
创始人
2025-07-28 10:22:05
0

(记者 张苏慧)7月26日-29日,WAIC 2025在上海举行。在中国电信展台上,“方言语音高质量数据集”吸引了不少参观者驻足——当人们享受着智能手机精准的语音识别、惊叹于自动驾驶汽车在复杂路况中的从容表现、或是依赖电商平台“猜你喜欢”的精准推送时,或许未曾想到,这些人工智能(AI)应用背后,正依赖着一个庞大而基础性的产业支撑,这正是数据标注。

图为中国电信展台展示的“方言语音高质量数据集”

数据制约大模型发展

当前人工智能产业正陷入一场严峻的数据饥渴危机——斯坦福AI指数最新报告显示,全球AI数据需求正以每年230%的指数级速度激增,而大模型参数规模更保持着每12个月增长10倍的惊人速度。这种“数据饥渴”背后暗藏隐患:若没有高质量数据的持续“喂养”,再先进的算法也终将沦为无米之炊。更严峻的是,数据标注成本已占AI模型训练总成本的35%以上,超越算力投入成为最大开销项。OpenAI内部测算表明,GPT-4训练消耗的10万亿token中,超过60%需经过人工标注处理,这意味着每训练一个前沿大模型,背后都是海量人工标注资源的支撑。

因此,在国内,数据标注产业呈现爆发式增长。IDC预测2025年中国AI数据服务市场规模将突破120亿元,年复合增长率高达47.2%。国家数据局副局长余英在2025数博会上明确表示:数据,特别是高质量、多模态、精标注的数据,是人工智能发展的不竭动力,并宣布构建数据标注+高质量数据集+模型+应用场景+市场化价值化闭环生态的战略方向。

高质量数据集是技术创新燃料

当前,虽然业内专家普遍认为,数据资源的短缺成为制约大模型持续创新的核心瓶颈,但一个不容忽视的现实是,大多数行业大模型正面临着训练数据质量缺陷的重大挑战。正如蚂蚁集团CTO何征宇在OceanBase开发者大会上提出,数据的广度与深度直接限制了大模型能力的天花板。面对这一行业痛点,中国电信深刻认识到“无高质量数据,则无强人工智能”的发展规律,因此在打造高质量数据集下足了功夫。

此次中国电信展台展出的“方言语音高质量数据集”依托中国电信发布的星海•多模态数据标注平台,通过AI辅助自动化标注技术,准确率超过92%,效率相比人工提升了17倍。依托这一技术,可以构建50万小时的高质量方言数据集,打造方言数据模型,赋能各种智能热线,使其能听得懂不同区域、不同民族的群众语言。

此外,中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。支撑落地政务服务热线、医疗问诊、文化导引、助农直播等场景,真正“听懂”群众需要,提升座席人员工作效率超20%,该项目入选GSMA全球移动通信系统协会运营商实践AI大模型赋能垂直行业标杆案例。

从国家战略层面看,数据标注产业正迎来政策红利期。国家数据局正在指导合肥、成都等7个城市建设数据标注基地,通过先行先试探索产业发展的最佳路径。数据显示,截至今年上半年,这7个数据标注基地已累计建设数据集524个,服务大模型163个,初步形成了规模化发展态势。在这一国家战略布局中,中国电信积极参与国家级数据标注基地建设,目前已成功在成都、沈阳、保定3个标注基地实现技术落地。以河北保定项目为例,中国电信保定分公司联合保定市数据局、高新区、中电信人工智能科技(北京)有限公司,在技术创新、行业赋能、产业培育、人才培养、基地运营等五个维度展开全方位合作。项目团队围绕大规模多模态数据,打造智能数据标注生成管理平台,实现数据从采集到模型部署的全流程自动化,大幅提升数据集生产效率,降低AI模型训练门槛。

值得一提的是,中国电信的《多模态数据自动化标注与增强平台》和《视觉大模型自动标注一站式生产运营》成功入选国家数据局数据标注优秀案例,不仅展现了中国电信在数据标注技术创新和应用落地方面的领先实力,也为人工智能产业提供了高质量数据支撑的典型范例。

高质量数据集赋能AI+场景应用落地

目前,中国电信星辰MaaS平台构建起“算力-模型-数据-工具-应用”全链条AI服务能力,集成超80个行业大模型以及50多个高质量数据集,能够一站式满足用户多云算力调度、数据标注处理、大模型训推、行业智能体应用需求,深度赋能央企AI+场景应用落地。已在中车集团等10余个央企落地应用,涵盖能源、工业、交通、住建等多行业。

在新型工业化领域,利用“翼云控+工业大模型”推动产线智能改造,大幅提高智能加工、物流分拣、视觉质检等环节的生产效率。例如,在某大型制造业企业中,通过部署星辰工业大模型,设备故障率降低了30%,生产效率提升了25%,产品次品率降低了15%,为企业节省了大量的成本,提升了市场竞争力。

在教育领域,打造校园帮办大模型解决学校系统人性化难题。为院校打造专属问答助手,整合了知识管理、智能问答和数据分析等一体化服务功能,使师生服务效率提升40%,知识文档优化率提升40%,目前已落地广西、甘肃等多所院校,服务数万名师生。心理健康大模型则通过多轮情感对话赋能校园心理健康,为学生提供情绪疏导服务。据数据显示,该大模型专业度测评高达91.7%,心理服务应答效率提升60%。

在交通领域,与中车集团合作,通过“息壤”平台提供算力调度支持,定制开发整车仿真、安全监测、乘客服务等12个场景的行业大模型,助力中车的核心生产环节智能化升级,共同打造交通领域的行业应用标杆。

在政务领域,打造的星辰政务大模型已在上海、江苏等多地应用落地,大幅提升热线运营效率和市民感知,未来将面向全国推广。

在应急领域,与依图科技联合推出应急预警视觉大模型,可快速识别出180+风险隐患和灾害场景,广泛服务于各级应急管理单位和应急救灾工作。

图片来源:林碧涓/摄

相关内容

热门资讯

“风云家族”上“星” 太空“气... 中新社北京12月27日电 (记者 马帅莎 郑莹莹)风云四号C星(又称风云四号03星)12月27日在西...
智赋荆楚,灵启新程!华为坤灵中... 智能化浪潮席卷荆楚大地,在长江经济带与中部崛起战略的双重驱动下,湖北中小企业作为区域经济的“活力引擎...
贯彻中央部署,重要委员会成立!... 撰文 | 李岩 中国工信新闻网27日消息,26日,工业和信息化部人形机器人与具身智能标准化技术委员...
上海克林技术取得绕线系统专利,... 国家知识产权局信息显示,上海克林技术开发有限公司取得一项名为“一种绕线系统”的专利,授权公告号CN2...
超值预警!这免费官网竟能精准狙... 当免费成为主流,究竟哪款AIGC检测官网才能真正帮你识别和优化AI生成内容的网络可见度? 优采云AI...
2025全球智能手表出货量预计... 12月27号消息,根据Counterpoint Research最新发布的报告显示,全球智能手表出货...
数翊科技华中研发总部项目签约落... 近日,数翊科技与光谷光电子信息产业园签约,将在光谷建设华中研发总部,开发以分布式数据库软件为核心的A...
赛维斯照明取得筒灯结构专利,提... 国家知识产权局信息显示,中山市赛维斯照明有限公司取得一项名为“一种筒灯结构”的专利,授权公告号CN2...
广电流量卡深度测评:信号、流量... 办卡关注 微 信 公 众 号 :找卡乐园 这里是专为你打造的流量卡服务站,既能帮你揭开流量卡市场的各...
东旭光电取得重载连接器专利,具... 国家知识产权局信息显示,芜湖东旭光电装备技术有限公司取得一项名为“重载连接器”的专利,授权公告号CN...
【赠书福利】豆瓣9.1分的神级... 天气预报为什么总不准? 股市为什么难以预测? 心跳为什么偶尔会咯噔一下? ——全是“混沌”在捣鬼! ...
原航发集团董事长曹建国: 已从... 12月27日,据澎湃新闻报道,曾任中国航空发动机集团有限公司(简称“中国航发集团”)董事长、党组书记...
原创 荣... 2025年12月26日,根据多家科技媒体的消息,荣耀这家智能手机厂商在成都举办新品发布会,正式发布“...
理文造纸取得用于造纸生产的打浆... 国家知识产权局信息显示,广东理文造纸有限公司取得一项名为“一种用于造纸生产的打浆磨浆装置”的专利,授...
美国初创公司高管:人形机器人市... 在加利福尼亚州山景城举行的Humanoids Summit上,多位人形机器人初创公司的创始人与高管表...
更安全更便捷更微创:重庆医生首... 近日,聚焦胸外科机器人手术的专题研修活动“胸外科机器人手术大师班”在重庆医科大学附属大学城医院举行。...
“成都造”家储产品发往尼日利亚... 12月26日,四川华体照明科技股份有限公司(以下简称“华体科技”)在其成都双流总部基地举行了新型储能...
上海旅超AI音乐赛携手AI开放... 第一届上海旅游攻略超级大赛(第一季)启动以来,收获热烈反响。为有效扩大赛事社会影响半径,上海旅超大赛...
原创 仅... 最近,台湾的气氛有些紧张。台防务部门发布了一则消息,称大陆将于12月27号,也就是大约48小时后,在...
联名徕卡三年后,小米造了一台“... 如果一台手机,它的开机界面是 Leica、机身刻着 Leica,背面还镶了颗 Leica 经典可乐标...