GPT-5训练背后隐藏大佬:靠一篇博客入职OpenAI
创始人
2025-06-17 00:01:13
0

智东西

编译 | 李水青

编辑 | 心缘

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。

“许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。

▲Yuchen Jin的X推文及Yuchen Jin的自述

Yuchen Jin提及的这篇博客发布于2024年12月,题为《Muon:神经网络隐藏层的优化器(Muon: An optimizer for hidden layers in neural networks)》。

博客地址:https://kellerjordan.github.io/posts/muon/

从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型企业。

这篇博客厉害在那儿?Muon凭什么成为OpenAI的敲门砖?让我们从这篇博客文章内容说起。

一、Muon定义:一个神经网络隐藏层的优化器

Muon是神经网络隐藏层的优化器。它被用于NanoGPT和CIFAR-10的快速运行,刷新了当时训练速度的记录。

Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。

具体来说,Muon是一个针对神经网络隐藏层二维参数的优化器,其定义如下:

其中“NewtonSchulz5”定义为以下Newton-Schulz矩阵迭代:

使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。

Muon取得了以下实证成果:

1、将CIFAR-10上的训练速度记录提高到94%准确率,从3.3秒提高到2.6秒。

2、将FineWeb(一项称为NanoGPT快速运行的竞赛任务)上的训练速度记录提高至3.28 val loss,提高了1.35倍。

3、在扩展到774M和1.5B参数的同时,继续显示训练速度的提升。

4、在HellaSwag上用10个8xH100小时训练了一个1.5B参数转换器,使其达到GPT-2 XL级别的性能。使用AdamW达到相同结果则需要13.3小时。

以下是针对NanoGPT快速运行的不同强力优化器的比较:

▲按样本效率比较优化器(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102924_Optimizers)

▲按挂钟时间比较优化器

此外,以下是Muon和AdamW在训练15亿参数语言模型时的对比。两个优化器均已进行调整。

▲Muon与AdamW在15亿参数短时间训练中的对比(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102024_ScaleUp1B)

二、Muon设计:牛顿-舒尔茨迭代法作为后处理步骤

Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。

NS迭代的作用是使更新矩阵近似正交化,即应用下列操作:

换句话说,NS迭代实际上用最接近的半正交矩阵替换了SGD-momentum的更新矩阵。

为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。

作者推测,正交化有效地增加了其他“稀有方向”的规模,这些方向在更新中幅度较小,但对学习仍然很重要。

除了NS迭代之外,还有其他几种方法可以对矩阵进行正交化。但作者没有使用其中两种方法,他是如何排除的?

一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。

相比之下,作者发现NS可以在bfloat16中稳定运行,因此选择它们作为正交化更新的首选方法。

在Keller Jordan的实验中,当使用具有调整系数的Muon来训练Transformer语言模型和小型卷积网络时,只需运行5步NS迭代就足够了。

此外,Keller Jordan还分析了Muon的运行时间和内存要求。对于典型的语言训练场景,无论规模大小,Muon的FLOP开销都低于1%。

三、Muon实证考虑:批判糟糕的基线,提出新方法

根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。

根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。

另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。

第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。

Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。

Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。

发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。

为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。

竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。

结语:全新优化器或成为GPT-5中的重要技术

通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。

Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

来源:X平台、keller Jordan博客

相关内容

热门资讯

2026年1月Switch/S... 大家好,首先祝朋友们元旦快乐!新的一年里心想事成,马到成功! 今天我们来前瞻一下,简单盘点2026年...
文化传承模范,人民日报全程直播... 12月30日晚,整个游戏圈注为之沸腾。 起因是,人民日报新媒体多矩阵全程直播网易游戏——《逆水寒》手...
原创 奇... 大家好我是指尖,奇幻商店是王者全新设计的皮肤销售方式,感觉和此前的玉镖夺魁有异曲同工之妙,都是通过低...
水墨山河入梦来!《魔域》马年“... 等了这么久,《魔域》马年幻兽的面貌终于揭晓了!《魔域》官方正式放出了全新幻兽“九州神骏”系列的原画与...
超千万网友围观,人民日报77年... 人民日报播游戏了? 就在昨晚,人民日报新媒体全矩阵同步播出了,网易《逆水寒》手游的2026跨年演唱会...
中国残疾人联合会:于沈水之阳,... 在辽宁沈阳,科技赋能与模式创新正悄然改变着许多残疾人的生活轨迹与人生可能。当地在促进残疾人高质量就业...
《魔域》首批水墨风年兽!九州神... 《魔域》首批水墨风年兽!九州神骏原画曝光,文旅联动同步官宣 《魔域》的各位兄弟们,等了好久终于等到今...
磷酸铁锂厂商新年掀起涨价潮 来源:经济观察报 记者 王雅洁 2025年12月31日下午,一家磷酸铁锂正极材料生产企业的销售部人士...
原创 钢... 12月25日晚上七点,成都中车·源STAGE,导播台的多块屏幕同时工作着,技术人员盯着监视器,手指在...
筑牢新型电力系统数字底座,开放... 近日,由南方电网主办的2025年电鸿生态大会在北京举行。大会聚焦电鸿开源生态共建,系统探讨了从技术协...
神州租车联动18大品牌打造沉浸... 岁末年初之际,神州租车近日宣布开启联名活动,联合秋果酒店、自如、美团民宿、途家民宿、宇树机器人、科大...
原创 律... 众所周知,职业选手会因为赛场表现未达到粉丝的预期,被冠以类似“玉玉”、“CJB”等偏侮辱性的外号。大...
一天搬砖16小时,月入过万的神... 玩过MMO的玩家都知道,玩游戏不仅是娱乐活动,也可以是赚钱的渠道,大量玩家靠着游戏赚到了人生的第一桶...
科天达申请便于散热的模温机专利... 国家知识产权局信息显示,广东科天达智能科技有限公司申请一项名为“一种便于散热的模温机”的专利,公开号...
簇拥烈日的花 观点2026新年... 观点网你好,2026。每当新年的第一缕晨光穿透晨雾,我们如簇拥烈日的花,又一次抬起头来,回望来处的足...
跨界风又起!电池新能源赛道再成... 来源:市场资讯 (来源:我的电池网) 导语丨mybattery 跨界从来不是稳赚不赔的买卖,此前也有...
翻斗式雨量监测站:实时测雨的科... 在生活中,降雨是我们再熟悉不过的自然现象。春日的细雨如牛毛般轻柔,唤醒沉睡的大地;夏日的暴雨倾盆而下...
争议中登顶,《燕云十六声》周年... 文 | 游戏价值论 2025 年 12 月 27 日,《燕云十六声》周年版本 “饮马渡秋水” 正式...
全国首套真空式自动系泊系统在青... 2026年1月1日,在山东港口青岛港全自动化集装箱码头现场,长达366米的“地中海沙特阿拉伯”集装箱...
华人团队AI公司8个月狂揽7亿... (来源:格隆汇APP) 来源:格隆汇 2025年12月30日,一个注定被载入科技史册的日子。 整个硅...