刚刚,字节豆包大模型团队官宣!攻克了关键技术!
创始人
2025-03-11 06:41:38
0

3月10日,字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。

据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

入选顶级会议MLSys 2025

据了解,MoE是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。以海外主流模型Mixtral-8x7B为例,其训练过程中通信时间占比可高达40%。

针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025 ,被认为“在大规模生产环境中极具应用潜力”。

COMET与Deepseek研发的DualPipe方案还可以联合使用。在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DualPipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

目前,COMET支持多种MoE并行模式,部署灵活、方便。同时,COMET核心代码已开源,并向开发者提供了一套友好的Python API,计划兼容Triton等编译生态。

近期国内大模型研发技术快速获得突破,相关APP下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿,DeepSeek在中国区苹果应用商店免费APP下载排行榜首,第二名是豆包,第三名是腾讯元宝。

最新辟谣

3月10日,寒武纪(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。

有市场消息称,字节跳动向寒武纪下单4万颗580芯片,单价2.5万元,总价值合计10亿元。

对此,字节跳动相关负责人表示,消息不实。

近期一度大火的Manus也传曾婉拒字节的投资。

据报道,开发出Manus的中国创业公司——Monica,在2024年年初曾经与字节进行过一轮收购谈判。当时字节出价3000万美元,但因为远远达不到创始人肖弘的心理价位,这次谈判最终不欢而散。

接近Monica内部的从业者表示,字节收购的逻辑是以3000万美金的价格收购团队,将其团队和产品整合到豆包体系中,但是Monica进入字节后就会跟字节大模型战略绑定,就丧失了Monica产品上的独特优势。这也是肖弘及其团队不看好这场收购的主要原因。目前Monica估值接近1亿美元。

对此,截至目前,字节跳动并未给予回应。

传抖音将接入豆包大模型

近期有消息称,抖音App正在测试接入豆包App的AI能力,为用户带来更加丰富多元的智能体验。

在测试版本中,抖音为豆包App开放了两个超级入口:一个置于短视频界面,与点赞、评论、转发等功能并列;另一个则放在抖音的消息列表内,使AI技术与社交功能深度融合,进一步强化了用户互动体验。

此前,豆包App虽然具备对话、创作及图像生成等功能,但用户需要离开抖音App才能使用,这在一定程度上,也限制了豆包大模型的使用频率。

而通过将豆包直接嵌入抖音的两个重要入口,抖音App将直接打通豆包大模型中成熟的AI功能,用户无需跳转即可使用AI服务,这不仅能强化抖音自身的AI能力,实现流量与功能的深度绑定,还能通过抖音庞大的用户基数为豆包导流,推动“AI生态闭环”的建设。

相关内容

热门资讯

《撞车嘉年华2》抢先体验三号大... 《撞车嘉年华2》在THQ Nordic发布会上确认:正按抢先体验路线图稳步推进。 伴随全新预告片展...
解锁港口数智化:AI大模型藏着... 人工智能技术迅猛发展的当下,大模型的崛起为各行业带来了前所未有的机遇与挑战。作为连接全球贸易的关键枢...
资讯:杰杰亲自承认彻底离开IG... 雷竞技IG在第三赛段更换了打野之后,争议就没停下过。先是输给了TES,而后又被FPX斩于马下。很多人...
原创 2... 欧洲的LEC联赛算是全球范围内夏季赛开始最晚的一个赛区了,他们在8月2号才正式启动。与之前略有不同的...
长按2秒,居然有这么多“隐藏功... 谁懂啊家人们! 咱用了这么多年的微信, 功能开发率可能不到10%?! 8月1日 话题#怎么不等微信下...
消息称库克告诉员工,苹果“必须... 来源:市场资讯 (来源:IT之家) IT之家 8 月 3 日消息,据彭博社记者马克・古尔曼(Mark...
送票 | 免费观看和平精英总决... 各位特种兵,注意了!这个夏天,属于《和平精英》的巅峰对决,即将在三亚的热带风情中激情引爆! 8月9日...
男子弃微信记录引全民论战,数字... 来源:AI透视镜 当李大锤同学一气之下放弃迁移微信聊天记录时,他或许未曾料到会掀起一场关于数字断舍离...
《诛仙2》手游和华为联手参展C... Hello朋友们,今年的CJ已经从8月1日正式开展了,大家都去逛过了吗?对哪个展台的印象最为深刻呢?...
首届中国国际游戏开发者大会亮相... 近日,2025中国国际游戏开发者大会(CIGDC)在位于北外滩的世界会客厅举行。大会由中国音像与数字...
《战地 6》支持跨平台功能,但... IT之家 8 月 3 日消息,《战地 6》将支持名为“首选跨平台游戏”的功能,旨在为玩家提供更灵活的...
泰申微科技取得具有定位插接功能... 金融界2025年8月2日消息,国家知识产权局信息显示,泰申微科技(上海)有限公司取得一项名为“一种具...
原创 中... 苍茫的月球风暴洋平原,中国人的登月靴踩下了历史性一脚。全世界屏住呼吸,耳机里传来地球指挥中心的电流嘶...
Steam游戏下载中断?多维攻... 对于PC游戏爱好者而言,Steam平台无疑是他们的首选之地。然而,不少玩家在下载游戏时,频繁遭遇“无...
全球最大规模!神经拟态类脑计算... 8月2日,浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机—Darwin Monkey(以...
18进4仍有希望!联盟杯积分榜... 直播吧08月03日讯 联盟杯第二轮,迈阿密国际点球大战击败拿加沙,取得两个积分,赛后2轮5分暂时升至...
16.8元!在上海打到无人驾驶... 在上海浦东的金桥经济技术开发区,人们已经可以打到无人驾驶出租车了!目前,小马智行面向公众开放了无人驾...
湍流人生 求是风骨——追忆力学... 湍流不息,求是不息。 2025年8月1日,96岁的著名流体力学家、中国科学院院士、天津大学教授周恒在...
江州区政协领导调研罗白益兴智慧... 8月1日,江州区政协主席黄德隆一行来到罗白益兴智慧农场开展调研工作,旨在深入了解智慧农场的发展现状、...
突破性进展!国际首台,研制成功 转自:北京日报客户端 我国神经拟态类脑计算突破性进展 8月2日,浙江大学脑机智能全国重点实验室发布新...