思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
创始人
2025-07-18 10:02:02
0

编辑:KingHZ

离开OpenAI,只是为了meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往!

硅谷人才争夺战,火热升级!

过去,是OpenAI从谷歌等公司吸引人才;现在,meta直接砸钱抢人。

顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!

思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到meta。

在AI领域,Jason Wei非常高产。

根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开

意外的是,这些灵感都来自强化学习!

RL之人生启示

天生我材必有用

过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。

RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。

当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。

一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。

人生也一样。

我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。

研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。

强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯:

读大量原始数据。

做消融实验,把系统拆开看每个部件的独立作用。

有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。

今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。

更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。

所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板

相关内容

热门资讯

科技昨夜今晨1228:比亚迪方... 来源:市场资讯 (来源:IT之家) “科技昨夜今晨”时间,大家好,现在是 2025 年 12 月 2...
性能真的不重要了吗?Jeff ... 新智元报道 编辑:倾倾 【新智元导读】很多人背着「过早优化是万恶之源」的名言,写出的却是处处漏风的...
“基于电脑的艺术”如何走过30... 展览开幕式现场。 VR眼镜一戴,另一个时空、另一个世界就向你敞开了大门;造型奇特的“头盔”加持,你的...
桂林鸿程取得外置卧式多头分级机... 国家知识产权局信息显示,桂林鸿程矿山设备制造有限责任公司取得一项名为“一种外置卧式多头分级机”的专利...
真的建议你睡前关掉WiFi,不... 它几乎存在于每个家庭 还常年不断电 没有它你可能还会焦虑 它,就是WiFi路由器 据中国新闻网报道 ...
小米17:旗舰机市场销量领跑,... 在2025年的旗舰机市场,小米17系列以破竹之势席卷而来,不仅销量数据屡创新高,更以“技术普惠”的理...
昆明文理学院举办“AI赋能语言... 近日,“AI赋能语言教学与国际传播”研讨会暨云南教育国际交流协会民办高校专家委员会第三次会议在昆明文...
建霖健康取得易于更换滤芯的装置... 国家知识产权局信息显示,厦门建霖健康家居股份有限公司取得一项名为“一种易于更换滤芯的装置”的专利,授...
有色金属行业积极推动人工智能大... 从过去采矿凭经验到如今实现智慧勘探,从昔日冶炼靠手艺到如今实现AI精准调控,从以往粗放加工到如今大数...
原创 越... 越南开国功臣武元甲晚年说:若非黎笋固执,中越根本不用打那一仗。这话一出来,不知道戳中了多少经历过那段...
申彦通讯取得丝印定位工装专利,... 国家知识产权局信息显示,上海申彦通讯设备制造有限公司取得一项名为“一种丝印定位工装”的专利,授权公告...
浦东具身智能企业跻身全球第一梯... 来源:市场资讯 (来源:上观新闻) 12月26日,浦东具身智能企业——艾利特机器人发布全新复合机器人...
俄罗斯团体评年度热词 “拉布布... 新华社莫斯科12月28日电(记者栾海)临近岁末,俄罗斯多家团体评选出本国2025年度热词,“胜利”、...
我不是被运营商收买了,我就是运... 最近网络之争,引来很多水军的攻击,其中我就看到一种说法,项立刚是被三大电信运营商收买了,为电信运营商...
梁定邦:人工智能年增速约30%... 来源:金融一线 12月28日金融一线消息,中国财富管理50人论坛2025年会在京召开,本届年会的主题...
红桥区6个行业高质量数据集全部... 近日,天津市2025年行业高质量数据集名单发布,红桥区数据局组织推荐的6个数据集均成功入选,覆盖工业...
我国交付国际热核聚变实验堆IT... 新华社合肥12月28日电(记者戴威、何曦悦)28日,由中国科学院合肥物质科学研究院等离子体物理研究所...
互联网运营优化三大模式:百度、... 互联网运营, 百度是基于权重和成本模型, 抖音头条则单内容作战×千人千面的神经模型, ...
郑州师范学院第二附属小学第二届... 大象新闻记者 李书恒 通讯员 李琪/文图 冬日暖阳映校园,科技之光耀童心。12月26日,郑州师范学院...
泽恩五金取得空芯插针端子专利,... 国家知识产权局信息显示,东莞市泽恩五金制品有限公司取得一项名为“一种空芯插针端子”的专利,授权公告号...