【青鸟飞扬教育】逆向推导:基于第一性原理的、针对 H100 的分析
创始人
2025-10-18 00:04:57
0

2.1 生产环境配置

首先设定一个现实的生产环境:假设采用 72 张 H100 组成的集群,单卡每小时 2 美元,总成本为每小时 144 美元。

为满足生产环境的延迟要求,我们设定每个模型实例的批处理量(batch size)为 32 个并发请求,这比基准测试中可能出现的大批量处理更符合实际。通过对每个模型实例采用 8 路 GPU 进行张量并行,我们可在 72 颗 GPU 上同时运行 9 个模型实例。

2.2 预填充阶段(处理输入)

每张 H100 GPU 的显存(HBM)带宽约 3.35 TB/s,这将成为大多数工作负载的瓶颈。由于 37B 激活参数以 FP16 的精度存储需占用 74 GB 空间,每个实例每秒可完成约 3,350GB/s ÷ 74GB = 45 次前向传播(译者注:实际每秒能完成的前向传播次数不仅取决于显存带宽,还受到其他因素影响)。

关键在于:每次前向传播会同时处理所有序列中的所有词元(tokens)。当我们批量处理 32 条序列且每条序列平均包含 1000 个词元时,单次前向传播即可处理 32,000 个词元。这意味着每个实例每秒可处理 45 次前向传播 × 32k tokens = 144 万个 input tokens。9 个实例合计每秒处理 1300 万 input tokens,即每小时 468 亿 input tokens。

实际情况中,混合专家模型(MoE)可能需要为当前批次中不同词元加载不同的专家组合,若这些词元被路由到多样化的专家组合,可能使吞吐量降低 2-3 倍。然而在实际应用中,路由模式通常呈现围绕热门专家的聚集现象,且现代实现方案采用专家并行与容量因子等技术来维持效率,因此实际影响更可能接近 30%-50% 的降幅,而非最坏情况下的数值。

2.3 解码阶段(生成输出)

输出生成阶段则呈现完全不同的图景。此阶段需顺序生成词元 ------ 每次前向传播每个序列仅产生一个词元。因此每秒 45 次前向传播仅使每个实例每秒产生 45×32=1440 个 output tokens。9 个实例合计每秒 12,960 个 output tokens,即每小时 4670 万个 output tokens。

2.4 每个词元的原始成本

成本不对称性非常显著:input tokens 成本为 144 美元 ÷ 468 亿 = 每百万词元 0.003 美元,而 output tokens 成本为 144 美元 ÷ 4670 万 = 每百万词元 3.08 美元,存在千倍的差异!

2.5 当计算能力成为瓶颈

上述计算假设内存带宽是主要限制因素 ------ 这对典型工作负载确实成立。但在某些特定场景下,计算能力反而会成为系统瓶颈。当处理长上下文序列时,注意力计算量会随序列长度呈平方级增长。采用超大批处理数量并增加并行注意力头数,也会使系统从内存瓶颈转为计算瓶颈。

当上下文长度超过 128k 时,注意力矩阵会变得极其庞大,系统将从内存受限模式转为计算受限模式。对于超长上下文场景,这可能导致成本增长 2 到 10 倍。

这解释了某些有趣的产品决策:Claude Code 将上下文长度人为限制在 20 万词元 ------ 不仅是出于性能考量,更是为了将推理运算维持在低成本的内存受限状态,避免陷入高成本的计算受限长上下文场景。这也是为何服务商对 20 万 + 词元的上下文窗口会额外收费 ------ 因为其经济模型已发生本质变化。

相关内容

热门资讯

Tabe离开AL后被反噬,JD... 大家都知道JDG在本届转会期花了重金买了CFO的中野,又花了高价买了Tabe教练。目的就是为了冲击明...
开启原汁原味的“魔法编程”之旅... 魔法冒险,指尖启程。今日(12月22日),由波浪科技研发,bilibili游戏独家代理发行的“魔法编...
原创 今... 上周五TGA 2025年度颁奖典礼刚刚结束,但由此衍生的热梗和讨论却越发变得火热起来。 你既能看到这...
游族网络CEO陈芳出席中国游戏... 12月17日至19日,备受瞩目的“2025年度中国游戏产业年会”在上海徐汇西岸成功举办。本届年会以“...
英伟达50亿美元入股英特尔:重... 来源:市场资讯 (来源:三言科技) 据报道,美国联邦贸易委员会(FTC)正式批准英伟达对英特尔50亿...
原创 2... 新旗舰的销量有高有低,评价也有好有坏,但总的来说,随着价格的逐渐走高,配置也确实越来越强,用户的满意...
原创 魔... 盘点魔兽世界时光服一阶段最极品的五大装备,不夸张的说二阶段完全无需更迭,速看! 一:缚灵碎片护符 ...
《生化危机:安魂曲》双主角像“... 在《生化危机:安魂曲》中,里昂露面成为主角之一,玩家们就在好奇卡普空将如何塑造两位主角。对此,《生化...
闪电快讯|摩尔线程GPU技术路... 来源:界面新闻 12月20日,摩尔线程首届MUSA开发者大会(MDC 2025)在北京开幕。 这也是...
人民日报:购买家电,如何避免“... 今年以来,在以旧换新、购买补贴等优惠政策下,居民家电消费持续增长。与此同时,不少消费者反映自己在购买...
吉比特:三国题材SLG手游《九... 吉比特(603444.SH)代理的三国题材赛季制SLG手游《九牧之野》于2025年12月18日正式公...
消息称任天堂Switch 2《... IT之家 12 月 22 日消息,据最新消息,任天堂将不再补货 Switch 2 《马力欧卡丁车世界...
起底日本网络“水军”:“黑中国... 近日,日本大型众包平台CrowdWorks被曝长期发布网络招募信息,付费征集“批评中国”等内容的短视...
小庄矿2025年洗块煤销量突破... ■记者 赵小康 通讯员 李茸茸 文/图 截至12月15日,陕煤运销集团彬长销售公司小庄矿洗块煤销量...
英国央行行长就AI技术影响发出... 来源:商业周刊 英国央行行长安德鲁·贝利就人工智能技术的影响发出迄今最严厉警告,称该技术虽能提升国家...
冬至饺子消费热潮来袭 餐企全力... “冬至到,吃水饺”这一传统民俗,如今正演变为一场线上线下联动的消费盛事。12月21日冬至当天,京城各...
因涉嫌违法,瑞典工会撤销针对特... IT之家 12 月 21 日消息,瑞典维森工会(Vision)已撤销针对特斯拉拟在卡尔马市设立服务中...
数字健康人“安诊儿”升级为3.... 本报杭州12月20日讯 (记者 林晓晖) 20日,国家人工智能应用中试基地(医疗)·浙江正式开园并发...
上海俐麸信息科技:专注AI与G... 在当今数字化浪潮中,企业对于网络搜索能效的重视程度日益提升,如何让自己的信息在海量数据中脱颖而出,成...
卢伟冰透露小米17 Ultra... IT之家 12 月 20 日消息,小米集团合伙人、总裁卢伟冰今天举行直播,为各位观众带来 17 Ul...