刚刚,字节豆包大模型团队官宣!攻克了关键技术!
创始人
2025-03-11 06:41:38
0

3月10日,字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。

据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

入选顶级会议MLSys 2025

据了解,MoE是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。以海外主流模型Mixtral-8x7B为例,其训练过程中通信时间占比可高达40%。

针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025 ,被认为“在大规模生产环境中极具应用潜力”。

COMET与Deepseek研发的DualPipe方案还可以联合使用。在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DualPipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

目前,COMET支持多种MoE并行模式,部署灵活、方便。同时,COMET核心代码已开源,并向开发者提供了一套友好的Python API,计划兼容Triton等编译生态。

近期国内大模型研发技术快速获得突破,相关APP下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿,DeepSeek在中国区苹果应用商店免费APP下载排行榜首,第二名是豆包,第三名是腾讯元宝。

最新辟谣

3月10日,寒武纪(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。

有市场消息称,字节跳动向寒武纪下单4万颗580芯片,单价2.5万元,总价值合计10亿元。

对此,字节跳动相关负责人表示,消息不实。

近期一度大火的Manus也传曾婉拒字节的投资。

据报道,开发出Manus的中国创业公司——Monica,在2024年年初曾经与字节进行过一轮收购谈判。当时字节出价3000万美元,但因为远远达不到创始人肖弘的心理价位,这次谈判最终不欢而散。

接近Monica内部的从业者表示,字节收购的逻辑是以3000万美金的价格收购团队,将其团队和产品整合到豆包体系中,但是Monica进入字节后就会跟字节大模型战略绑定,就丧失了Monica产品上的独特优势。这也是肖弘及其团队不看好这场收购的主要原因。目前Monica估值接近1亿美元。

对此,截至目前,字节跳动并未给予回应。

传抖音将接入豆包大模型

近期有消息称,抖音App正在测试接入豆包App的AI能力,为用户带来更加丰富多元的智能体验。

在测试版本中,抖音为豆包App开放了两个超级入口:一个置于短视频界面,与点赞、评论、转发等功能并列;另一个则放在抖音的消息列表内,使AI技术与社交功能深度融合,进一步强化了用户互动体验。

此前,豆包App虽然具备对话、创作及图像生成等功能,但用户需要离开抖音App才能使用,这在一定程度上,也限制了豆包大模型的使用频率。

而通过将豆包直接嵌入抖音的两个重要入口,抖音App将直接打通豆包大模型中成熟的AI功能,用户无需跳转即可使用AI服务,这不仅能强化抖音自身的AI能力,实现流量与功能的深度绑定,还能通过抖音庞大的用户基数为豆包导流,推动“AI生态闭环”的建设。

相关内容

热门资讯

科莱堡取得透明耐高温单向阀专利... 国家知识产权局信息显示,漯河科莱堡科技有限公司取得一项名为“一种透明耐高温单向阀”的专利,授权公告号...
概念研究所-什么是灵巧手? 春晚人形机器人的爆火,进一步印证了人形机器人产业从实验室技术突破向产业化应用或已有关键进展。在机器人...
摩尔线程申请图像处理方法及装置... 国家知识产权局信息显示,摩尔线程智能科技(北京)股份有限公司申请一项名为“图像处理方法及装置、电子设...
联播+|三个“桩”撑起“一盘棋... 2月9日,正值早春时节,在位于北京亦庄的国家信创园区,一场关于未来的对话正在进行。园区一层大厅里,与...
上海交通大学首创循证推理诊断系... 中国教育报-中国教育新闻网讯(记者 任朝霞)日前,由上海交通大学人工智能学院张娅教授、谢伟迪副教授与...
原创 W... LPL新的大战已经开打,相信网友们也看得很开心,一上来JDG和TES就给网友们带来了节目效果,笑到最...
自主可控筑屏障 麒麟信安赋能光... 全球能源转型进程持续加快,清洁能源成为未来发展核心方向,光伏、风电电站建设迎来提速热潮。在此背景下,...
AMD与Meta达成千亿美元A... AMD在AI芯片竞争中取得重大突破,与Facebook母公司Meta签署多年协议,将提供高达6GW的...
中国造机器人加快欧洲本地化布局... 中国智造机器人正在加快欧洲本地化布局。2026年2月24日,智元(AGIBOT)在德国慕尼黑举办发布...
扩容26万个基站,春节期间全国... 记者从工业和信息化部了解到,信息通信行业春节假期全面加强网络和通信服务保障,全国通信网络整体运行平稳...
青岛鑫润浩取得便于操作的真空收... 国家知识产权局信息显示,青岛鑫润浩环保设备有限公司取得一项名为“一种便于操作的真空收油机”的专利,授...
北航开源Code2Bench:... 在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 Humane...
开局自带新年兽!魔域口袋版新服... 魔域口袋版马年新服福利炸裂,最亮眼的当属“乱世佳缘”活动——零成本就能抱走马年兽!活动1月15日至3...
原创 《... 《战双帕弥什》手游中,罗塞塔·极锋作为暗队核心,其双模组切换与人马形态是大招增幅的关键。玩家需通过信...
原创 《... 《斗罗大陆:猎魂世界》千仞雪体系清晰分为短图、长图两大核心玩法,短图包含单控带光翎、双控两种组合,长...
总投资615亿元!山西一项国家... AI导读 News Today 黄河古贤水利枢纽春节不停工,全力冲刺年底导流洞节点,依托智慧系统保障...
谷歌连夜封禁,全行业集体堵截,... 文 | 字母AI 人红是非多,自OpenClaw爆火以后它就不断遭受争议,现如今谷歌打响了反Ope...
6项好成果!青岛国企的创新答卷 近日发布的2025年度“青岛好成果”优秀转化案例中,有6项国企报送案例入选。从智慧机场的无人化技术,...
46.5万次盲测封王!Grok... 新智元报道 编辑:元宇 【新智元导读】马斯克亲自站台,grok-image-video-720p在...
新春走基层|春节假期后首个工作... 原标题:春节假期后首个工作日掠影(新春走基层) 2月24日,春节假期后首个工作日,一组组鲜活数据,一...