蚂蚁携手人大!发布行业首个原生MoE扩散语言模型
创始人
2025-09-12 23:01:58
0

来源:新浪科技

新浪科技讯 9月12日上午消息,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。(罗宁)

相关内容

热门资讯

浪潮KaiwuDB四度斩获IT... 近日,国内权威IT媒体IT168与旗下ITPUB社区联合揭晓2025年度“技术卓越奖”榜单,浪潮分布...
秦始皇都不能长生,这游戏让你获... 秦始皇砸锅卖铁找长生不老药,到死都没摸到永生的边儿。谁能想到,现在打游戏就能“白嫖”永生机会? 最...
JUG与TE溯共写“无畏之约”... 当武汉PANDA电竞中心(未来城店)的灯光渐暗,12月19日这场“齐聚江城 无畏电竞”主题活动的余温...
英山县毕昇小学入选教育部第二批... 近日,教育部办公厅公布第二批中小学人工智能教育基地名单,英山县毕昇小学成功入选,成为黄冈市唯一获此殊...
近七成玩家在抖音“刷游戏”,这... 在刚过去不久的产业年会上,抖音游戏负责人苏禾分享的数据格外引人注目: ·中国接近70%的游戏用户...
原创 德... 在韩国KeSPA杯结束之后,紧接着而来的就是LPL的德玛西亚杯了。本届德玛西亚杯邀请了14支LPL战...
Viper被海超阿卡丽狂切,E... LOL德杯赛事精彩继续,关注赛程的都清楚,目前第二阶段的比赛都快接近尾声了,B组的大战真的是看点拉满...
鸣潮3.0全局抽卡指南:琳奈和... 鸣潮3.0版本明天就要开启啦!这次即将上线6位UP角色,上下半场即将登场全新角色琳奈和莫宁,那么琳奈...
Take-Two官方出手,高手... IT之家 12 月 24 日消息,据外媒 GamesRadar+ 今日报道,将《GTA:罪恶都市》搬...
原创 F... 在最近的Kespa杯的比赛落下帷幕后,LCK赛区迎来了新赛季开启前难得的休赛期,很多队伍都开始给选手...
湖北中瑞取得一项自保温砂浆及其... ** 国家知识产权局信息显示,湖北中瑞建筑有限责任公司取得一项名为“一种自保温砂浆及其制备方法”的专...
光热发电:2030年装机150... 一项能将白天的阳光储存起来、在夜间或阴天稳定供电的太阳能技术,正迎来规模化发展的关键节点。这项名为“...
原创 屡... 被誉为“全世界最烂游戏公司”的EA,在糊弄玩家这件事上几乎从不让人失望。日前,《战地风云6》的一款外...
AI“好产品”的年度答案,20... 当AI不再以参数规模和模型数量作为唯一叙事,产业正在悄然转向另一个问题:哪些技术,真正经得起复杂场景...
消息称三星放弃“超薄手机”赛道... IT之家 12 月 24 日消息,《韩国经济日报》最新报道称,三星已决定彻底取消 Galaxy S2...
日媒:日本航天恐面临“无箭可用... 参考消息网12月23日报道据日本《每日新闻》12月23日报道,日本22日进行的H3运载火箭第8次发射...
一条千亿级赛道雏形初现,领跑者... 近日,由广东省游戏产业协会与引力引擎联合制作的《2025年中国小游戏百强企业榜》正式发布。还记得在2...
东城区网络安全和数字素养云展厅... 12月23日,2025北京市东城区互联网行业发展主题活动举办。本次活动以“正阳先锋·e企向新:人工智...
Steam喜加一:原价136元... IT之家 12 月 24 日消息,开发商 Dovetail Games 宣布旗下游戏《模拟火车世界 ...
公测翻车后的首次大更新,这款二... 《二重螺旋》还没有放弃。 12月23日,英雄游戏《二重螺旋》上线了1.1版本,在放出前瞻直播时,就被...