字节跳动,重大宣布!成本再降40%!
创始人
2025-03-11 14:22:05
0

大模型训练成本,再砍一刀!

3月10日,字节豆包大模型团队在国际知名开源社区平台GitHub上开源了一项针对 MoE(混合专家模型)架构的关键优化技术COMET。据悉,该技术可将大模型训练效率提升1.7倍,成本节省40%。目前,COMET已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。

MoE是当前大模型的主流架构,最近大火的国产大模型DeepSeek采用的就是MoE架构。DeepSeek自研的DeepSeekMoE作为一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。

字节豆包大模型团队表示,MoE在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专家通信空转时间。

在此前的“开源周”活动中,DeepSeek也曾开源了团队为解决MoE通信瓶颈而采取的DualPipe+DeepEP方案。不过,与之不同的是,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动,更加方便、灵活、通用。这一方法,还因其简洁性与通用性而高分入选全球机器学习系统顶级会议 MLSys 2025,被认为“在大规模生产环境中极具应用潜力”。

不仅如此,由于在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DeepSeek研发的DualPipe则通过排布算子来掩盖通信,两种方案并不冲突。因此,COMET还可以与DualPipe方案结合使用,以更大程度压缩训练成本。

值得注意的是,就在一个月前的2月12日,字节跳动豆包大模型团队发布消息称,团队提出了全新的稀疏模型架构UltraMem,可有效解决MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。

业内人士分析,此次开源的COMET可与此前提出的UltraMem结合使用,将大模型训练成本进一步“砍”得更低。

当前,随着技术的不断进步迭代,以及头部厂商逐渐加入开源大军,大模型训练成本正不断下降。启明创投主管合伙人周志峰曾表示,大模型每百万Token调用成本已经从2023年120美元(约人民币800元)降到2024年不到人民币1元,下降了99.9%,根据估算,未来成本很有可能再下降99.9%。

DeepSeek、字节跳动等国产大模型通过提高架构创新、算法优化,提升了训练效率,降低训练成本,看似减少了算力的需求,但中国银河证券研报指出,大模型成本缩减意味着降低了企业的训练与推理门槛,即每单位成本所能提供的训练和推理服务更多了,算力效率提升有望激活更广泛的用户与应用场景,从而引发对更大参数以及更复杂的大模型迭代需求。

研报进一步表示,算法优化(如模型压缩、蒸馏)确实能提升单次任务效率,但AI能力的边界扩展(如多模态、复杂推理、通用人工智能)仍依赖更大规模模型和更复杂计算。这可能会对均衡下的算力需求产生正面影响,整体算力需求不会减少而是更加旺盛,从而形成对硬件需求的新一轮推升,即步入“算法进步→模型复杂化→硬件升级”的正循环。

在通过技术创新持续降低模型训练成本的同时,字节跳动也在扩大AI资本开支,招募更多顶尖AI人才,研发投入显著领先同行。浙商证券研报分析,字节跳动在AI上投入巨大,2024年资本开支达到800亿元,接近百度、阿里、腾讯三家的总和(约1000亿元)。市场人士分析,2025年字节跳动或进一步上调AI资本开支,扩大算力投资规模。

一方面加大资本投入,另一方面增强人才队伍,字节跳动正积极地“招兵买马”。记者注意到,字节跳动近日还首次启动了“筋斗云人才计划实习专项”。据内部人士介绍,该计划是字节跳动面向优秀校园技术人才推出的专项招聘,意在全球范围内,吸引和招募有志于用技术创造突破性价值的顶尖学生。

此外,字节跳动另一招聘计划“Top Seed人才计划(含研究实习专项)”全年开放招募,这是国内唯一的专门针对大模型领域的人才计划,旨在全球范围内持续寻找有志于投身 AI 研究的顶尖人才。字节跳动校招负责人表示:“公司十分重视人才、关注人才成长,相信优秀的校园人才能发挥自身潜力,不断超越现状,创造出突破性的价值。”

责编:万健祎

校对: 王蔚

相关内容

热门资讯

锦州中瑞电器取得功分器功率分配... 国家知识产权局信息显示,锦州中瑞电器设备有限公司取得一项名为“一种功分器功率分配装置”的专利,授权公...
视频丨我国海上油田首次实现无人... 昨天,北部湾海域油田无人机系统运营项目正式落地。这是我国海上油田首次实现无人机规模化作业,为海洋能源...
科技自立自强进阶高水平 300 兆瓦级 F 级重型燃气轮机(资料照片)新华社发 《中共中央关于制定国民经济和社会发展第十五个...
鲁宾天文台自动预警系统上线,首... 3 月 1 日消息,薇拉 ·C· 鲁宾天文台的自动预警系统已正式上线,正源源不断地向天文学家推送夜空...
否认破产重组传闻,昔日行业“鼻... 文 | 雷达财经,作者 | 丁禹,编辑 | 孟帅 陪伴一代人成长的魅族手机,再次面临“艰难时刻”。...
人形机器人迈向“务工”时代 标... 2月28日,在人形机器人与具身智能标准化(HEIS)年会上,行业人士围绕“为什么要让人形机器人干活”...
旺磐精机取得具有抛光功能磨床专... 国家知识产权局信息显示,旺磐精机(广东)有限公司取得一项名为“一种具有抛光功能的磨床”的专利,授权公...
未来9年最后一次!3月2日公众... 3月2日19时至21时左右东方天空将上演月掩轩辕十四天象,这是未来9年内我国公众肉眼可见的最后一次月...
汉方新材料取得竖向自动粘胶机构... 国家知识产权局信息显示,汉方新材料科技(嘉善)有限公司取得一项名为“一种竖向自动粘胶机构”的专利,授...
心智观察所:攻击中国AI模型的... 【文/观察者网 心智观察所】 美国人工智能公司Anthropic最近成为华盛顿政治与军方争议的中心...
中国移动申请基于低轨卫星的差分... 国家知识产权局信息显示,中移(上海)信息通信科技有限公司、中移智行网络科技有限公司、中国移动通信集团...
海南颁发人工智能领域首单数据知... 央广网海口2月28日消息(记者 陶淦)记者从海南省知识产权局了解到,该局于近期为海南大学三亚研究院“...
档案整理必备:“这算一件还是两... 章节速览 一、常规情形:可直接界定为“一件” 二、特殊情形:易混淆“件”的界定 三、界定“件”的3个...
山东移动聊城分公司:科技赋能金... 近日,在阳谷县公安局的统一部署下,山东移动阳谷分公司顺利完成县域内重点金店的监控系统升级与平台接入工...
母校行|寒假招生宣传精彩展示—... 2025-2026返校宣讲活动 我们回到一中校园 向同学们展示贸大 PART.1 团队介绍 队长...
市场监管总局:3月1日起将实施... 2月28日,中国证券报·中证金牛座记者从市场监管总局获悉,3月1日起,539项国家标准开始实施。其中...
大一互取得电压互感器一次连接试... 国家知识产权局信息显示,大连第一互感器有限责任公司、大一互(大连)互感器研究院有限公司取得一项名为“...
原创 A... 长沙晚报掌上长沙2月28日讯(全媒体记者 肖舞) 2026年春节档电影以57.52亿元的总票房刷新纪...
制药行业2026年1月趋势洞察... 除了我们一直在报道的新闻和深度专题、采访以及现场活动覆盖之外,在头条新闻背后,今年初还涌现了一系列监...
卓赢机械取得离心机防飞溅机构专... 国家知识产权局信息显示,常州市卓赢机械有限公司取得一项名为“一种离心机防飞溅机构”的专利,授权公告号...