DeepSeek开源周第四弹!3大猛料一口气发完,梁文锋亲自贡献
创始人
2025-02-28 15:42:26
0

智东西(公众号:zhidxcom

作者| 程茜

编辑| 心缘

智东西2月27日报道,刚刚,DeepSeek开源周第四弹来袭,豪气一举开源三个代码库。

DualPipe:一种双向流水线并行算法,用于V3/R1训练中的计算-通信重叠;EPLB:用于V3/R1的专家并行负载均衡器;profile-data:训练和推理框架的分析数据。

DualPipe通过重叠计算和通信来减少训练的空闲时间,EPLB平衡了工作负载,使得几乎没有GPU闲置的情况,

值得一提的是,DualPipe的开发人员中有梁文峰参与。

DeepSeek的评论区开发者们依然持续夸夸夸,有人称其“打开了最后的封印”。

有人开始称赞DeepSeek的团队合作能力。

依然有网友在担心自己的英伟达股票:

GitHub地址:

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

一、DualPipe:双向流水线并行算法

DualPipe是DeepSeek-V3技术报告中介绍的一种创新的双向Pipeline并行算法。它实现了前向和后向计算通信阶段的完全重叠,也减少了流水线气泡。

在两个方向上,8个PP列和20个微批的DualPipe调度示例,其中两个被共享黑边包围的单元具有相互重叠的计算和通信。

流水线气泡和内存使用情况比较:

𝐹表示前向块的执行时间,B表示完全后向块的执行时间,W表示“权重后向”块的执行时间,𝐹&𝐵表示两个相互重叠的前向和后向块的执行时间。

快速启动:

注:对于实际应用程序,开发者需要实现一个定制的overlapped_forward_backward方法,以适应特定模块。

开发要求PyTorch 2.0 and above PyTorch 2.0及以上。

二、负载均衡算法EPLB,涵盖分层负载平衡和全局负载平衡

开源的另一个代码库是EPLB。

当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会因当前工作负载而异,因此保持不同GPU的负载平衡非常重要。正如DeepSeek-V3论文中所述,研究人员采用冗余专家策略,复制重载专家。然后将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。

此外,由于DeepSeek-V3中使用的组限制专家路由,DeepSeek还尝试将同一组的专家放置到同一节点,以尽可能减少节点间的数据流量。

为了便于复制和部署,DeepSeek在eplb.py中开源了EP负载均衡算法。该算法计算一个平衡的专家复制和放置计划的基础上估计的专家负载。

负载平衡算法有分层负载平衡和全局负载平衡两种策略,可用于不同的情况。

当服务器节点的数量除以专家组的数量时,其使用分层负载平衡策略来利用组限制的专家路由。首先将专家组均匀打包到节点上,确保不同节点的负载均衡。然后在每个节点内复制专家,最后将复制的专家打包到各个GPU,以确保不同的GPU负载平衡。分层负载均衡策略可以在预填充阶段使用,专家并行规模较小。

其他情况下使用全局负载平衡策略,在全局范围内复制专家,而不考虑专家组,并将复制的专家打包到单个GPU。该策略可用于专家并行度较大的解码阶段。

接口和示例:负载均衡器的主要功能是eplb.rebalance_experts。

下面的代码演示了一个两层MoE模型的示例,每层包含12个专家,每层引入4个冗余专家,在2个节点上放置16个副本,每个节点包含4个GPU。

三、在DeepSeek Infra中分析数据

最后一个是DeepSeek训练和推理框架的分析数据。

使用PyTorch Profiler捕获分析数据。下载后,开发者可以通过在Chrome浏览器中导航到Chrome://跟踪(或在Edge浏览器中导航到edge://跟踪)来直接将其可视化。他们模拟了一个绝对平衡的MoE路由策略来进行性能分析。

训练配置文件数据展示了其在DualPipe中针对一对单独的向前和向后块的重叠策略。每个块包含4个MoE层。并行配置与DeepSeek-V3预训练设置对齐:EP 64,TP 1,4K序列长度。为了简单起见,在分析期间不包括PP通信。

推理过程,对于预填充,该配置文件采用EP 32和TP 1(与DeepSeek V3/R1的实际在线部署一致),提示长度设置为4K,每个GPU的批量大小为16 K令牌。在我们的预填充阶段,我们利用两个微批来重叠计算和所有对所有的通信,同时确保注意力计算负载在两个微批之间平衡-这意味着相同的提示可以在它们之间分割。

对于解码,该配置文件采用EP 128,TP 1和4K的提示长度(与实际在线部署配置密切匹配),每个GPU的批量大小为128个请求。与预填充类似,解码也利用两个微批进行重叠计算和全对全通信。然而,与预填充不同,解码期间的全对全通信不占用GPU SM:在发出RDMA消息后,所有GPU SM被释放,并且系统在计算完成后等待全对全通信完成。

相关内容

热门资讯

浦发银行“双App焕新” 以“... 近日,浦发银行以“伙伴·共创”为主题,在云端举办“浦惠来了”APP与“浦发银行”APP双平台焕新升级...
脑机接口新突破!大脑用“意念”... 高位截瘫患者仅凭意念,就可以操控轮椅在小区遛弯,指挥机器狗取回外卖——这不是科幻电影,而是近期我国科...
App里的新生活——2025年... 这一年,你的手机里新添了什么App?很多人的答案里至少有一个是人工智能(AI)。DeepSeek的小...
机器人板块集体走强,人形机器人... 12月19日,港仔机器人(00370.HK)涨10.29%,小鹏汽车(09868.HK)涨7.65%...
iPhone存储空间用完就坏?... 来源:界面新闻 界面新闻记者 | 宋佳楠 近日,“iPhone千万不能把存储空间用完”“iPh...
沃尔核材:高速通信线设备需调试... 证券之星消息,沃尔核材(002130)12月19日在投资者关系平台上答复投资者关心的问题。 投资者:...
新新国标正式落地,雅迪引领电动... 随着12月1日新新国标的正式实施,电动两轮车行业迎来了标准切换的关键时刻。这场变革涉及上亿用户和千亿...
原创 H... 罗永浩炮轰麦景图音响,称其是“这辈子见过最坑人的豪华音响品牌”。 可能并非是罗的本意,但是因为他的发...
大唐电商公司赴海控能源共探能源... 为深化市场布局,推动犀维电商在能源领域的规模化应用,大唐电商公司和海南进出口事业部一行专程拜访海南海...
卢伟冰开直播爆料小米17 Ul... 快科技12月19日消息,小米集团总裁卢伟冰预告将于12月20日开启爆料直播。这场直播会讲讲小米17 ...
原创 孟... 近日,华为顶层进行了一场低调的人事调整,引发了科技圈不小的震动。 工商信息显示,12月12日华为终端...
“AI叙事并未结束”!资本圈盛... 12月17日,资本圈年度盛会——2025证券时报分析师年会暨最佳分析师颁奖典礼在苏州隆重举行。在本次...
湘江国投直投频结硕果 天数智芯... 12月19日,天数智芯成功通过港股上市聆讯。这是继沐曦股份登陆科创板、希迪智驾挂牌港交所之后,湖南湘...
年终盘点|“借别人的不如造自己... 来源:第一财经 头部厂牌在IP领域谋求更大的话语权。 发力自有IP生态建设,潮玩产业强化与多元创意...
星图测控:做值得托付的“太空管... 本报记者 徐一鸣 在安徽合肥的测运控工作现场,技术人员正依托“洞察者”软件系统及地面测运控设备,向数...
林清民:科华数据以技术创新打造... 来源:环球网 【环球网科技报道 记者 林迪】当前,人工智能正以前所未有的速度重塑全球科技格局。在这...
美媒:心理健康短视频是平台的“... 美国《华盛顿邮报》12月12日文章,原题:短视频平台的“心理健康”内容是《爱丽丝梦游仙境》的“兔子洞...
奥比中光:公司高度重视供应链的... 证券日报网讯 12月19日,奥比中光在互动平台回答投资者提问时表示,公司已将多款视觉生态产品矩阵融入...
全球高管到访武汉,Jeep或将... 导读:Stellantis若希望重新评估“中国制造、服务全球”的电动化路径,神龙汽车无疑是一个具备现...
拼多多年度股东大会任命联席董事... 12月19日,拼多多集团年度股东大会宣布升级治理架构,实行联席董事长制度。经董事会批准,赵佳臻获任联...