字节跳动,重大宣布!成本再降40%!
创始人
2025-03-11 14:22:05
0

大模型训练成本,再砍一刀!

3月10日,字节豆包大模型团队在国际知名开源社区平台GitHub上开源了一项针对 MoE(混合专家模型)架构的关键优化技术COMET。据悉,该技术可将大模型训练效率提升1.7倍,成本节省40%。目前,COMET已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

MoE是当前大模型的主流架构,最近大火的国产大模型DeepSeek采用的就是MoE架构。DeepSeek自研的DeepSeekMoE作为一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。

字节豆包大模型团队表示,MoE在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

在此前的“开源周”活动中,DeepSeek也曾开源了团队为解决MoE通信瓶颈而采取的DualPipe+DeepEP方案。不过,与之不同的是,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动,更加方便、灵活、通用。这一方法,还因其简洁性与通用性而高分入选全球机器学习系统顶级会议 MLSys 2025,被认为“在大规模生产环境中极具应用潜力”。

不仅如此,由于在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DeepSeek研发的DualPipe则通过排布算子来掩盖通信,两种方案并不冲突。因此,COMET还可以与DualPipe方案结合使用,以更大程度压缩训练成本。

值得注意的是,就在一个月前的2月12日,字节跳动豆包大模型团队发布消息称,团队提出了全新的稀疏模型架构UltraMem,可有效解决MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。

业内人士分析,此次开源的COMET可与此前提出的UltraMem结合使用,将大模型训练成本进一步“砍”得更低。

当前,随着技术的不断进步迭代,以及头部厂商逐渐加入开源大军,大模型训练成本正不断下降。启明创投主管合伙人周志峰曾表示,大模型每百万Token调用成本已经从2023年120美元(约人民币800元)降到2024年不到人民币1元,下降了99.9%,根据估算,未来成本很有可能再下降99.9%。

DeepSeek、字节跳动等国产大模型通过提高架构创新、算法优化,提升了训练效率,降低训练成本,看似减少了算力的需求,但中国银河证券研报指出,大模型成本缩减意味着降低了企业的训练与推理门槛,即每单位成本所能提供的训练和推理服务更多了,算力效率提升有望激活更广泛的用户与应用场景,从而引发对更大参数以及更复杂的大模型迭代需求。

研报进一步表示,算法优化(如模型压缩、蒸馏)确实能提升单次任务效率,但AI能力的边界扩展(如多模态、复杂推理、通用人工智能)仍依赖更大规模模型和更复杂计算。这可能会对均衡下的算力需求产生正面影响,整体算力需求不会减少而是更加旺盛,从而形成对硬件需求的新一轮推升,即步入“算法进步→模型复杂化→硬件升级”的正循环。

在通过技术创新持续降低模型训练成本的同时,字节跳动也在扩大AI资本开支,招募更多顶尖AI人才,研发投入显著领先同行。浙商证券研报分析,字节跳动在AI上投入巨大,2024年资本开支达到800亿元,接近百度、阿里、腾讯三家的总和(约1000亿元)。市场人士分析,2025年字节跳动或进一步上调AI资本开支,扩大算力投资规模。

一方面加大资本投入,另一方面增强人才队伍,字节跳动正积极地“招兵买马”。记者注意到,字节跳动近日还首次启动了“筋斗云人才计划实习专项”。据内部人士介绍,该计划是字节跳动面向优秀校园技术人才推出的专项招聘,意在全球范围内,吸引和招募有志于用技术创造突破性价值的顶尖学生。

此外,字节跳动另一招聘计划“Top Seed人才计划(含研究实习专项)”全年开放招募,这是国内唯一的专门针对大模型领域的人才计划,旨在全球范围内持续寻找有志于投身 AI 研究的顶尖人才。字节跳动校招负责人表示:“公司十分重视人才、关注人才成长,相信优秀的校园人才能发挥自身潜力,不断超越现状,创造出突破性的价值。”

责编:万健祎

校对: 王蔚

相关内容

热门资讯

“玩游戏”,也能拿正式学位! “网瘾少年”,也能毕业拿学位? 7月13日,新华社发表《玩游戏也能拿学位?》一文,报道了首都体育学院...
Steam喜加一:原价 30 ... IT之家 8 月 3 日消息,开发商 SC Jogos 宣布旗下赛车游戏《Barro GT》在 St...
《撞车嘉年华2》抢先体验三号大... 《撞车嘉年华2》在THQ Nordic发布会上确认:正按抢先体验路线图稳步推进。 伴随全新预告片展...
解锁港口数智化:AI大模型藏着... 人工智能技术迅猛发展的当下,大模型的崛起为各行业带来了前所未有的机遇与挑战。作为连接全球贸易的关键枢...
资讯:杰杰亲自承认彻底离开IG... 雷竞技IG在第三赛段更换了打野之后,争议就没停下过。先是输给了TES,而后又被FPX斩于马下。很多人...
原创 2... 欧洲的LEC联赛算是全球范围内夏季赛开始最晚的一个赛区了,他们在8月2号才正式启动。与之前略有不同的...
长按2秒,居然有这么多“隐藏功... 谁懂啊家人们! 咱用了这么多年的微信, 功能开发率可能不到10%?! 8月1日 话题#怎么不等微信下...
消息称库克告诉员工,苹果“必须... 来源:市场资讯 (来源:IT之家) IT之家 8 月 3 日消息,据彭博社记者马克・古尔曼(Mark...
送票 | 免费观看和平精英总决... 各位特种兵,注意了!这个夏天,属于《和平精英》的巅峰对决,即将在三亚的热带风情中激情引爆! 8月9日...
男子弃微信记录引全民论战,数字... 来源:AI透视镜 当李大锤同学一气之下放弃迁移微信聊天记录时,他或许未曾料到会掀起一场关于数字断舍离...
《诛仙2》手游和华为联手参展C... Hello朋友们,今年的CJ已经从8月1日正式开展了,大家都去逛过了吗?对哪个展台的印象最为深刻呢?...
首届中国国际游戏开发者大会亮相... 近日,2025中国国际游戏开发者大会(CIGDC)在位于北外滩的世界会客厅举行。大会由中国音像与数字...
《战地 6》支持跨平台功能,但... IT之家 8 月 3 日消息,《战地 6》将支持名为“首选跨平台游戏”的功能,旨在为玩家提供更灵活的...
泰申微科技取得具有定位插接功能... 金融界2025年8月2日消息,国家知识产权局信息显示,泰申微科技(上海)有限公司取得一项名为“一种具...
原创 中... 苍茫的月球风暴洋平原,中国人的登月靴踩下了历史性一脚。全世界屏住呼吸,耳机里传来地球指挥中心的电流嘶...
Steam游戏下载中断?多维攻... 对于PC游戏爱好者而言,Steam平台无疑是他们的首选之地。然而,不少玩家在下载游戏时,频繁遭遇“无...
全球最大规模!神经拟态类脑计算... 8月2日,浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机—Darwin Monkey(以...
18进4仍有希望!联盟杯积分榜... 直播吧08月03日讯 联盟杯第二轮,迈阿密国际点球大战击败拿加沙,取得两个积分,赛后2轮5分暂时升至...
16.8元!在上海打到无人驾驶... 在上海浦东的金桥经济技术开发区,人们已经可以打到无人驾驶出租车了!目前,小马智行面向公众开放了无人驾...
湍流人生 求是风骨——追忆力学... 湍流不息,求是不息。 2025年8月1日,96岁的著名流体力学家、中国科学院院士、天津大学教授周恒在...