人民网上海7月28日电(马作鹏 董志雯)7月27日,2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛在上海拉开帷幕,众多学界、业界专家分享了真知灼见。
论坛由世界人工智能大会组委会指导,上海库帕思科技有限公司、上海市人工智能行业协会主办。上海市委常委、副市长陈杰出席论坛并致辞,中国科学院院士鄂维南等顶尖科学家、人民日报社传播内容认知全国重点实验室学术带头人张冬明等专家学者和创新创业者作主旨演讲和圆桌论坛分享。
陈杰在致辞中指出,对于语料,上海市委市政府一开始就高度重视,因此组建了库帕思,要求库帕思以市场化运营的方式为行业发展赋能,为中小企业的创新突破赋能,重点突破具身智能、强推理数据集、稀缺数据集等3个专项工程。
论坛聚焦AI Ready的高质量语料数据,以“平台筑基、工具赋能、标准引领、生态协同”为主线,集中发布四大类核心成果。其中包括:服务能级再上台阶,重磅发布“对内对外”2套平台;标准牵引生态链接,发布13项标准和1项指南;持续深化语料数据人才培养,启动工程硕博士联合培养项目;持续打响CICC大赛、语料风云榜等生态品牌。
主旨演讲环节,中国科学院院士、上海算法创新研究院学术委员会主任鄂维南带来《Data-centric AI的基础设施》,深入剖析了数据驱动AI创新应用的技术路径。
上海库帕思科技有限公司董事长山栋明带来《拥抱以数据为中心的人工智能时代》。山栋明表示人工智能的浪潮已经扑面而来,模型在发生一系列的变化,从过去的大参数、多模态模型在慢慢向小参数生产力模型、强推理慢思考模型、科学智能模型和面向物理AI的具身智能模型转变,相应的语料数据也会发生一系列变化。
上海人工智能实验室青年科学家何聪辉为大家介绍《MinerU2:异构数据到AI-Ready的智能引擎》。何聪辉表示,当前所有的模型都是用非常类似的公开数据集做训练,模型的同质化不可避免,如何打破僵局,他认为AI数据的价值发生了跃迁,模型将会从规模之争走向数据质量的竞赛。
另外,论坛直击行业一线,邀请企业家代表分享实践案例。商汤科技大装置事业群解决方案总经理代继分享《大模型研发语料工程实践》,联通数据智能有限公司副总经理宋雨伦分享《构建高质量数据集联通实践》,游族网络股份有限公司首席战略官傅焜分享《超越文本与图像:游戏多模态实时语料的价值挖掘》。
圆桌环节,由上海亿欧总经理缪国成主持,携手天娱科技首席数据官吴邦毅、脉策数据创始人汤舸、松应科技创始人聂凯旋、上智院主任研究员李吉羊、人民日报社传播内容认知全国重点实验室学术带头人张冬明,以《什么是好数据?》为题,共话“好数据是什么、好数据在哪里、好数据需要通过怎样的机制来获得”。