训推大模型,为何应该先彩排?
创始人
2025-06-11 23:01:11
0

在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

《华为技术披露集》系列

VOL.15 :建模仿真

大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入"龟速"困局。华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上,而传统“人拉肩扛”的优化方法在芯片特性的"三角矛盾"(算力-带宽-容量失衡)前束手无策。

三大挑战:动态负载需求下的软硬件博弈

大规模训练集群的利用率黑洞:大模型训练过程像驾驶中的"猛踩油门"(训练阶段密集计算),MoE模型更如混合动力车,需精准平衡计算与内存配比,极致压缩通信占比,稍有不慎便效率骤降。

动态实时推理系统任务的两极分化:从短问答(城市道路)到长文本生成(越野山路),推理阶段硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力,在不同任务场景实现动态效率最优。

复杂万卡集群的长稳运行:为突破计算-内存动态博弈(服务区分配)、异构任务资源争抢(车祸变道)及硬件耐久性(车道维护)瓶颈,需实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行。

破局之道:“数字化风洞”

在正式开展复杂AI模型的训推之前,可以先在虚拟环境的“数字化风洞”中 "彩排"。比如研发一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景的表现,就像电影导演用动画预演复杂镜头。这种 "先模拟后实战" 的方式,能提前发现计算系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。

面对昇腾芯片的异构特性(跑车式高算力 vs 货车式大容量),华为马尔科夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行“又快又稳”。

大规模训练集群的“效率发动机”

Sim2Train:昇腾训练集群架构仿真与设计空间自动寻优

基于仿真能力,通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41%。这套方案如同为大模型系统装上自动驾驶仪,让每一份算力都在精准导航下全速驰骋。

动静态融合的大规模训练集群建模仿真方法:通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型对计算、内存、通信的"油耗需求",结合对昇腾平台的精准硬件刻画能力,依托有向无环图连通静态建模与动态仿真,精准刻画大规模训练集群运行效率。

以仿寻优,“千锤百炼”终获最佳方案:依托负载-软件-硬件协同优化范式,发现最优的设计与优化方案。1)实现面向昇腾平台的模型结构智能搜索与优化,达成模型性能与功能能力的最优均衡;2)面向 CloudMatrix 昇腾超节点复杂拓扑结构,实现芯片级、拓扑级与负载级的全栈架构建模与策略联合优化;3)基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

图1 Sim2Train训练仿真系统框架

动态实时推理系统的“性能加速器”

Sim2Infer:昇腾推理系统架构仿真与运行时在线自优化

基于仿真能力,通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理、全局最优化负载均衡部署、服务化调度策略分钟级在线优化策略自动求解,端到端推理性能提升30%+。这套方案如同符文契约下的高科技炼金熔炉,压榨每一份算力资源。

多层级推理系统建模仿真,负载生成-请求调度-推理引擎-硬件系统四层架构:构建了面向昇腾平台的复杂推理建模仿真系统,该系统集成了五大核心功能模块:负载特征建模、层次化系统架构分析、模块化策略描述、离散事件驱动仿真和分层搜索优化机制。

动态优化,极致压榨硬件能力的“性能炼金术”:通过软硬协同的建模仿真驱动一系列的推理系统创新优化。1)建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议;2)大EP场景MoE模型的最佳推理部署方案寻优;3)通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+,为大模型在昇腾平台上提供低延迟、高吞吐的推理部署方案。

图2 Sim2Infer推理仿真系统框架

大规模训推集群的“安全气囊”

Sim2Avaliablity:昇腾算力系统高可用架构仿真与统一协同管控

基于高可用仿真能力,通过随机优化搜索、灵敏度分析、动态规划去冗余优化等技术,实现集群硬件架构可靠性瓶颈定位及优化、软件故障统一管控决策,支撑万卡集群分钟级快恢,可用度达成98%。这套方案如同为大规模集群系统装上“安全气囊”,保障高效算力长稳运行。

硬件故障模式全栈监控的“智能感知座舱”:高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。结合故障随机模拟,构建蒙特卡洛分析硬件可靠性瓶颈,实现集群硬件可测可控。

软件统一协同管控仿真,保证高效弹性快速恢复:从细节到全局高效分析不同故障场景下的端到端系统可用度。1)从计算侧、网络侧及整个集群等层面量化分析,实现了可靠性瓶颈定位,强力支撑 AI 集群高可用架构设计;2)通过动态规划弹性调度、极致去冗余并行掩盖优化等技术,实现算力系统可用度提升显著。保障算力稳如磐石,管控调度优化效率跃升数倍。

图3 Sim2Availability高可用仿真系统框架

写在最后

随着新型应用快速变化(细粒度MoE、原生多模态、生成式推荐、Agentic AI、Physical AI、互联网AI),系统架构持续创新(PIM/NDP、Wafer-Scale Computing、集群池化系统、光电混合系统),未来算力基础设施的架构设计与优化空间持续激增,需要建模仿真方法支撑算力基础设施的持续演进。华为马尔科夫建模仿真团队将继续持续深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解、架构设计空间探索、故障仿真快速排查、算力系统Benchmark构建等领域发力,助力华为昇腾集群高效平稳运行,推动国产算力基础设施建设与AI计算技术创新。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

相关内容

热门资讯

小米神秘伪装车现身,好修长 伴随着 SU7 和 YU7 两款车型发布上市,小米后续的新车规划被外界所关注。 而就在昨天(8 月 ...
谁是最终的王者?第一届全国大学... 全国大学生人工智能安全竞赛 2025年8月23日,2025第一届全国大学生人工智能安全竞赛决赛在北京...
Epic发布医疗智能体系统重新... 来源:至顶网 Epic作为电子病历(EMR)领域的领军企业,本周迈出了医疗AI发展的重要一步。CE...
帕克太阳探测器揭秘:太阳磁重联... 美国宇航局的帕克太阳探测器近日取得了一项重大科学突破,它首次直接观测到了太阳大气中的磁重联现象,这一...
确山:聚众芯新能源开业投产 8月21日,确山县电子产业园内,聚众芯新能源有限公司经过紧张的建设正式投产。这一重要时刻,标志着确山...
剧透!英伟达明天公布人形机器人... “你设置好日程提醒了吗?” 8月24日,英伟达机器人官方账号在社交平台上发布了一张黑色礼盒的照片,附...
全兴精工取得液压齿轮泵滑动轴承... 金融界2025年8月23日消息,国家知识产权局信息显示,全兴精工集团有限公司取得一项名为“一种液压齿...
原创 希... 希尔瓦娜斯·风行者确定将在《魔兽世界》的新资料片“至暗之夜”中回归。 消息来自Psybear_TV...
原创 荣... 不得不说,现在的手机电池容量太大了,也解决了很多人的续航焦虑,对于经常外出,或者是续航要求较高的人群...
兰州市9家企业荣登2025中国... 8月22至23日,第11届中国国际发明展览会暨2025中国隐形独角兽500强大会在广州举办。兰州市科...
太原等七城算力中心接入国家超算... 来源:黄河新闻网 8月23日,2025中国算力大会主论坛二活动中,国家超级计算太原中心、青岛“海之心...
OpenAI正式登陆亚马逊云科... 今日, 亚马逊云科技(AWS)宣布将首次通过Amazon Bedrock和Amazon SageMa...
30秒|四川省红色故事优秀讲解... 4月8日,“‘红岩铸魂·鸿鹄砺志’——传承江姐精神,争做时代追梦人”红色大讲堂,在自贡鸿鹄中学校举办...
人工智能的滥用,到底怎么治? 声音和形象被AI合成滥用的事儿正变得越来越多。比如本周,奥运冠军全红婵、王楚钦等人的声音被AI克隆,...
以科技为笔 总台系列节目为机器... 从春晚舞台上灵动跳着秧歌舞的具身机器人,到深海中探索未知的全球首例仿蝠鲼水下机器人,再到可抱起90公...
惊天逆转!小孩让三追五夺得EW... 2025年电竞世界杯《街头霸王6》项目全球总决赛冠军诞生!总决赛BO9,中国格斗传奇小孩(曾卓君)在...
《Deadlock》新英雄登场... 《Deadlock》新增了一名名为“看门人”(The Doorman)的角色,他能在地图上几乎任何平...
广西防御台风应急响应提升至Ⅲ级... 记者从广西海事局了解到,随着今年第13号台风“剑鱼”增强到13级,并即将影响北部湾,为保障辖区海上交...
原创 S... 大家好我是指尖,23日王者S41赛季前瞻直播中,其实爆料了特别多的内容,之前粗略地跟大家做了重点汇总...
上海试点建设新型城市“空间”,... 来源:上观新闻 为了让数据“供得出、流得动、用得好、保安全”,上海正先行先试,面向超大城市特点需求,...