蚂蚁携手人大!发布行业首个原生MoE扩散语言模型
创始人
2025-09-12 23:01:58
0

来源:新浪科技

新浪科技讯 9月12日上午消息,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。(罗宁)

相关内容

热门资讯

宁国市西津小学四年级曾同学向母... 9月10日,教师节,宁国市西津小学四年级曾同学和爸爸妈妈一起来到了母校,校门、花坛、操场,书声、欢笑...
“智慧眼”紧盯扬尘 “组合拳”... 360度旋转的监控摄像头实时捕捉工地每一个角落;大门入口的LED显示屏上,PM10(可吸入颗粒物)、...
《最终幻想7:重制版Inter... 正在举行的任天堂新一期直面会上,SE宣布《最终幻想7:重制版Intergrade》将于2026年1月...
KK官方对战平台《主播就是赚》... kk官方对战平台今日起开启全网最疯癫计划——《主播就是赚》全员躺赚计划,月入过万等你来拿!不限粉丝,...
《勇者斗恶龙7:Reimagi... 在今晚的任天堂直面会上,SE公布了《勇者斗恶龙7:Reimagined》,该作将于2026年2月5日...
《零~红蝶~ 重制版》公布 2... 在今晚的任天堂直面会上,光荣公布了《零~红蝶~ 重制版》,2026年初发售,登陆Switch 2。
“塞外明珠”乌梁素海添“智慧眼... 中新网 巴彦淖尔9月11日电 题:“塞外明珠”乌梁素海添“智慧眼” 科技守护湿地生灵 中新网 记者 ...
外媒:苹果 AirPods 实... 【环球网科技综合报道】9月12日消息,据gsmarena报道,苹果公司本周早些时候发布了iPhone...
勇当人工智能发展“尖兵”!上海... 9月12日举行的首届创智未来大会上,上海创智学院交出亮眼成绩单,包括发布全球首个规模化全流程机理可解...
中国科学家取得光合生物适应进化... 钛媒体App 9月12日消息,颗石藻是海洋中的主要浮游植物之一,在白垩纪达到鼎盛,不仅是海洋初级生产...
人大八月|风华肇启 共赴新程 金秋八月 人大校园满是蓬勃朝气 这里有迎新的热情洋溢 也有从报到指引到开学典礼 有学术的熠熠生辉与思...
《符文工房 龙之天地》首次特卖... Marvelous Inc. 宣布,NintendoSwitch 2/Nintendo Switch...
有人在2025年掏出一个201... “国产MMO大抵是病了”。 这可不是什么无病呻吟,纵观近几年国内的MMO市场,确实有那么点味道不对。...
史上最薄iPhone来了!5.... 当库克从口袋中抽出那部仅5.64毫米厚的手机时,全场惊呼——这可能是iPhone十年来最大胆的设计变...
《使命召唤手游》繁星灿烂时返场... 手游巴士(www.shouyoubus.com)2025年09月12日:当战场的硝烟与星河的光辉再次...
超击突破9月19日Steam开... 战术竞技射击游戏《超击突破》的开发商 Wonder People 宣布,游戏将于北京时间9月19日上...
同济大学团队开发“AI牙慧诊”... 口腔健康关乎每个人的生活质量,然而医疗资源分布不均、基层诊疗能力难以匹配需求的现状,一直困扰着基层民...
《三国望神州》曹仁技能全解析:... 手游巴士(www.shouyoubus.com)2025年09月12日:在《三国望神州》的水墨三国世...
蚂蚁携手人大!发布行业首个原生... 来源:新浪科技 新浪科技讯 9月12日上午消息,在2025Inclusion·外滩大会上,蚂蚁集团与...
《冬日计划2.0:小屋发烧》即... 2025年9月11日,开发商Other Ocean Interactive正式宣布,备受玩家期待的多...