姚顺雨最新访谈:AI下半场,机会在这一点
创始人
2026-01-18 01:01:42
0

内容来源: 2025年5月,语言即世界工作室,张小珺商业访谈录对话姚顺雨分享。

分享嘉宾: 姚顺雨,OpenAI前研究员,现任腾讯“CEO/总裁办公室”首席AI科学家,AI Infra部及大语言模型部负责人。

高级笔记达人 丨天朗明月

| 排版| 拾零

第 9392 篇深度好文:12809 字 | 30 分钟阅读

商业趋势

笔记君说:

都说AGI(通用人工智能)是AI的终极目标,但通往它的道路似乎越来越拥挤:

一边是大模型能力持续“溢出”;另一边是AI创业公司陷入集体焦虑,跟风复刻ChatGPT的同质化产品找不到差异化。

这个困境背后,是AI行业一个核心矛盾的转化:过去,我们焦虑的是“如何训练出一个更强的模型”;现在,我们困惑的是“如何定义一个有价值的任务”,以真正释放模型那被“低估”的惊人能力。

这标志着AI发展已悄然进入“下半场”。上半场的英雄是算法和算力,下半场的核心将是定义者与组织者——他们懂得如何设计互动、编排任务、构建环境,让AI从“聪明的聊天者”成长为“可靠的行动者”。

OpenAI前研究员、AI Agent研究方向的核心探索者姚顺雨,将这种行动者称为“Language Agent(语言智能体)”。他指出,Agent的本质是通过语言实现推理,通过推理实现泛化,它正是通往AGI的必经形态。

那么,在这个关键转折点上,创业者的机会到底在哪里?

或许,答案就隐藏在这句反共识的洞察里:“最大的机会,在于设计不同于ChatGPT的交互方式。”

今天,让我们跟随姚顺雨的思考,从“上半场”到“下半场”,看懂AI Agent如何重划竞争版图,并在这场变革中,找到属于每个组织与个体的价值支点。

本文根据姚顺雨访谈进行整理,内容有所删减,希望能给到你启发。

一、核心洞察:

厘清时代主要矛盾,锚定AGI演进路径

1.核心论断:AI竞赛进入“下半场”,胜负手转移

2025年4月发布博文《The Second Half》(下半场,我受邀去斯坦福一门课做talk

当时想,能讲点什么?没法讲太技术,只能讲更哲学的内容,就想到the second half这个话题

矛盾转化上半场依赖模型与算力到下半场依赖“基准任务与环境”

大家过去往往更关注模型训练、方法设计和算力,但我觉得现在的bottleneck(瓶颈)已经转移了:变成怎么去定义好的任务,怎么去定义好的环境。

现在主线正从“上半场”转向“下半场”我说的主线是基于“Language Agent”(语言智能体)

② 本质揭示:Agent是构建AGI的必然形态与关键路径

有人问:语言的智能体和传统Agent的本质区别是什么?在回答这个问题前,我们先说下Agent。

第一,什么是Agent?

从自然语言处理的角度Agent是相对于一个只会生成文章或对话的系统而言。它能和外界交互,比如使用计算器、互联网,或调用各种工具。

也就是说,不仅能生成内容,还能操作和互动。但从更广义的AI背景看,Agent是一个非常古老的概念

任何能进行自我决策、与环境交互,并试图optimize reward(优化奖励)的系统,都可以被称为Agent。

从这个角度出发,你可以说AlphaGo是Agent,也可以说Waymo是Agent,甚至可以说机器人是Agent。

第二,语言赋予推理能力

为什么语言非常独特?因为它是人在这个世界完成各种各样事情的工具像火或笔一样。

2020年以前,大家没把这个事想清楚,觉得语音、文字、图像、视频都是一些数据,没什么区别。

但我觉得最大区别是:语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。

是我个人观点,我之所以这么说,是因为在此前,如果你在一个特定环境上训练,模型只能在这个环境表现良好,不能轻易迁移到其他环境。

但现在,你在一个环境上训练,模型可以适应更多不同环境。所以,我觉得它还是泛化的它能够推理。

所以,“Language Agent”(语言智能体)和传统Agent的本质区别是可以推理它们最大区别在于,语言模型提供了一个足够强的先验prior),这个先验让你可以推理,而推理又可以在不同的环境间泛化。

第三,推理带来泛化

具体怎么理解?举个简单的例子

我做ReActReAct:Synergizing Reasoning and Acting in Language Models,在语言模型中协同推理与行动,是一种让大语言模型在与外部环境交互时,同时进行“推理”和“行动”的方法框架,简单说就是浏览维基百科进行推理)一个很强的动机是:我做完colm(计算机语言处理)我的第一个工作之后,在思考一个问题

为什么我可以一下子去玩一个新的游戏,但现在这些系统或AI需要几十万步甚至几百万步训练,才能完成类似的事?

我发现,是因为我可以思考。我看到一个全新的环境会想:这个灯是黑的,那可能有危险,基于常识可能有怪兽;我现在最重要的是点亮灯。基于之前的上下文Context),灯在我后面,那我应该先向后走。

如果没有这样的思考能力,而是直接从复杂语言去预测“我要往后走”,就很难——没有推理做不到。

所以核心是推理能力推理才能带来泛化。

综上所述,现在终于有可能出现一个单一模型能够做所有任务。之前认为这不太可能,但现在是有可能的——你可以在很多不同任务上做强化学习,而且它能迁移到更多任务。

因此,Agent是构建AGI的必然形态与关键路径。她的核心价值在于,通过语言赋予的推理能力,实现跨环境、跨任务的泛化Generalization)

格局预判:未来世界将呈现“单极多元”格局

大多数人对AGI的想象就是一个模型,就像这个世界上最聪明的人,他拥有所有知识、能力,比我们都聪明,是最强智能体。

但我现在的感觉是:不同的交互方式下,有不同“好”的定义,有不同“强”的边界。

OpenAI可能会成为一个类似Google的公司,成为新世界里非常重要的一环——但这并不代表,这个世界就会被这样一个单极系统垄断或者是单方压倒另一方。

最终的智能边界,是由不同交互方式决定不是由一个single model(单一模型)决定

未来,模型的能力可能会产生beyond ChatGPT(超越ChatGPT)的交互方式,变成Super App(超级应用这里想象空间非常大。

比如,我想造一个朋友。这个朋友不需要数学、物理特别强,数学太强反而不自然。也许记忆不一定特别好,会犯错,有感情,也不是特别rational(理性)。但这也是有价值的。

当然,也可能出现一个由Agent组成的社会。

总之,未来世界将呈现“单极多元”格局底座是少数强大的基础模型(单极),上层是围绕不同交互方式构建的海量、多元Agent应用生态。

2.认知重置:为何这是根本性转折?

首先,对研究者来说,科研范式重心已经发生转移,即从算法改进Method)已经转变为任务环境设计(Task/Environment)

大家过去往往更关注模型训练、方法设计,但我觉得现在的bottleneck(瓶颈)已经转移了:变成怎么去定义好的任务,怎么去定义好的环境。

我觉得,从语言出发,去定义Reasoning(推理)、定义Agent,我们终于有了一个非常general的方法,而且这个方法是可泛化的——我们实现了一个基点时刻。

其次,对创业者来说,竞争壁垒已经从“获取或微调最新模型”,转向“设计新交互”。

ChatGPT或所有做模型的公司,都在做类似ChatGPT的产品。ChatGPT的本质是:你是在像和人交互一样去进行和数字世界的交互。

如果你做旧的interface,你利用这些新的模型,很容易被ChatGPT取代。如果你的交互方式很像ChatGPT,你有什么理由不被ChatGPT取代?如果你做的是新的交互方式,但模型没有继续变好、没有新的溢出能力,也很难做。

所以,对于创业公司来说,最关键的是做新的交互方式设计。

二、方法论:

构建下一代AI系统的四大行动支柱

1.第一支柱:任务定义——新核心竞争力的锻造场

当你有一个非常差的任务,你永远不可能学到非常好的东西。

核心原则:任务和环境很重要

首先,你要找一个足够有挑战的任务,这个任务能做出本质的新方法。

当你想做Agent或语言Agent,实际上没什么选择,只能去做文字游戏。Zork是个非常经典的文字游戏。你在一个基于文字的世界里,有点像一个互动脚本,可以往下走、往上走,可以去各个房间,可以做各种各样的事。

其次,是环境。

我们还拿Zork游戏来说。时间一长,你会发现,这个环境还是有很多缺陷,能学到的局限在这个环境,这个环境还是不够大。

而且你如果用RL学这个环境,就会像用RL学传统的视频游戏,可以把这个游戏打通关,但对于其他任务没有迁移作用

也像下围棋,你可以把围棋下得特别好,但对世界上其他事情没有价值。所以,我们需要一个更好的环境。

优秀任务“三板斧”检验清单

如何设定一个优秀的任务?我分享下我的“三板斧”检验清单

第一,结果导向:奖励(Reward)基于最终结果,而非过程。

不同的人有不同的flavor(风格),我从很早就有一个偏好我想定义一个基于结果的reward(奖励),而不是基于过程的而且这个reward应该是基于规则、可计算的,而不是来自人的偏好、模型的偏好,或者一些黑盒指标。

第二,白盒规则:奖励机制清晰、可计算、避免基于人类主观偏好。

我们做WebShop网上购物)的时候,最困难的一点是,怎么定义reward。我觉得做任何RL(强化学习)任务最难的不是建环境,而是怎么设计reward。

我希望这个reward是不noisy(不噪声大)的,是可解释的,是白盒的(white-box),不是那种黑盒的东西(black-box)

事实证明,这也是现在RL成功的关键。像math(数学)和coding(编程这种任务,之所以能做出来,核心就是:

其一,Reward是基于结果,不是基于过程;

其二,Reward是白盒的、基于规则的,不是基于人的偏好或模型的偏好。

比如,一个数学题答案是3,它就是3——只要你得出的是3,就是对的;不是3,就是错的。但如果你reward是基于过程,就会出现hacking(投机取巧)

比如SWE-bench这类工作:

其一,它是结果导向,而不是过程导向;

其二,它的reward是基于规则、白盒的,而不是来自人或模型的主观偏好。

总之,我后面做的很多task,也都是用同样的filter(筛选标准)

第三,价值闭环:任务本身应对应真实世界中有价值的场景片段

假设你去优化人的偏好、模型的偏好,也会出现hacking。比如你生成一段非常优美的代码,但它并不解决实际问题。所以,任务本身应该是真实世界的场景片段。

高级思维环境最外层记忆

某种程度上我们说MCP(模型上下文协议)也是hack(利用)Context的一种方法本质也是Memory

Agent角度看,这个世界有一个Memory Hierarchy(记忆层级)Memory Hierarchy最外层永远是环境。

有点像你考虑电脑,它有个Memory Hierarchy,从CPU缓存到内存再到硬盘,但最外层的Memory永远是外部环境。比如我插一个U盘、拔一个U盘,或者把东西上传到互联网,或者做个音乐变成光盘。

前年冬天,我读到冯诺依曼临终前写的一本书The Computer and the Brain计算机与大脑最让我印象深刻的一句话是:Essentially,the Environment is always the most outer part of the Memory Hierarchy.(基本上,环境永远是记忆层级中最外层的部分。)

这很哲学。

对于人,你有你的Memory Hierarchy,有Working Memory(工作记忆)、Long-Term Memory(长期记忆)在脑子里,但最外层是你的笔记本、Google Doc、Notion,这些是你最外层Memory Hierarchy的一部分。

2.第二支柱:交互创新——打破“拟人化”路径依赖

① 核心机会:设计不同于ChatGPT的交互方式

现在很多应用型创业公司很担心,大模型公司的模型能力溢出会把他们做的Agent吞掉。事实上,创业公司应该担心的是模型没有溢出能力,这样你就真的什么都做不了了。

有溢出能力是个非常好的事情,这几乎意味着你有机会。

创业公司最大机会是:能设计不同的interface(交互方式),或者说人和数字世界交互的方式。

比如,你的Chatbot是像人一样的东西——你和他聊天,给他布置任务,让他帮你做Deep Research(深入研究)或者写代码——交互方式是像人,或者像助手一样的交互方式。

如果你能用模型通用能力,创造不同的交互方式,就能创造巨大的机会。

所以,对于创业公司来说,创造不同的交互方式,并且模型不停有新的溢出能力,赋能到这些新的交互方式——两者缺一不就能创造巨大的机会。

② 创新交互路径:Copilot入侵式和Canvas原生式

说到交互方式的创新,人和人交互已经几千年、几万年,甚至是几百万年,这是对人最自然的形态,肯定是最显然的Super App。

由此,除了文字外,我们还可以有像人一样”的交互方式。具体分成以下两种:

第一,侵入式Copilot):像Cursor一样,嵌入集成开发环境(如IDE),成为增强人类能力的“副驾驶”。

Cursor创造了一种新的交互准确说它不是像人一样的交互,而是像Copilot(副驾驶)一样,属于侵入式。虽然它是IDE(集成开发环境)但在你写代码的时候,它能给你提示或编辑没有人和人是这样交互的这是它的价值所在。

第二,原生式Canvas):像Manus或理想中的“生成式画布”,创造全新的、为Agent协作而生的数字工作空间。

Canvas是一个好的尝试,可以基于现在的任务,在线生成最符合情境、个性和任务的前端。这是值得探索的方向,但也很难。

③ 竞争动态:世界是“相互抄”的

关于竞争,传统上大家认为发生的事情是:大厂先做出来一个东西,创业公司就可以开始抄。比如做出ChatGPT,我可以去抄一下ChatGPT,做一个类似的事情。

但现在,似乎反过来也可以成立。

小厂可以做一个事情,它创造出来一个交互的创新或者产品的创新,做模型的公司也可以去借鉴或者应用这点还是挺有意思。

很多时候大家会说,模型做得越来越好了,是给创业公司作嫁衣了。因为你创造很好的模型,如果没有自己运用特别好,这些创业公司就用好了。

但也可以反过来,如果你创造一个非常好的交互,但没有能力把模型或底层能力做特别好,大公司也可以借鉴你的交互,再加上它的模型能力,做得也特别好。

这世界是个相互抄的关系,而不是一个单向抄的关系。

3.第三支柱:能力演进——从“工具”到“同仁”的阶梯

① 大模型能力分级(L1-L5)解读

OpenAI提出的大模型能力分级从Level 1到Level 5,很多人都很熟悉了:

Level 1是聊天机器人(Chatbot)

Level 2是推理者(Reasoner)

Level 3是智能体(Agent)

Level 4是创新者(Innovator)

Level 5是组织者(Organizer)

不知道你有没有这个疑问:为什么是先有聊天机器人、推理者,然后才是Agent?要回答这个问题,可以分成以下两个部分:

第一,从L1到L2,再到L3,现在已完成,它们是能力递进关系,核心是让模型从“聊”到“想”再到“干”。

它们的逻辑是,首先你要有语言的先验知识基于语言的先验知识,最早能做出来的应用是Chatbot(L1)

接下来,基于语言先验,你需要具备推理能力,这是Reasoner(L2)

当你既有语言知识,又具备推理能力,才可能进一步做各种Agent(L3),尤其是能泛化的Agent。

也就是说,Agent建立在Chatbot和Reasoner能力之上。

第二,L4-Innovator(创新者)与L5-Organizer(组织者)正在进行中,现在是正交探索——个体创造与群体协作的双轨发展

很明显,今天Agent发展最关键的两个方向:

其一,让它拥有自己的reward(奖励),能自己探索;

其二,Multi-Agent(多智能体),让它们之间能形成组织结构。

这两个方向,我觉得是正交,它们可以并行发展。谁是Level 4,谁是Level 5,我不确定但这两个事情是显然的下一步。

首先,当你作为一个Innovator

其一你需要一个Long-Term Memory(长期记忆)。比如,我是Wiles(安德鲁·怀尔斯,数学家),我研究费马大定理,可能花了20年。我就需要一个长期记忆。

其二,我有这个长期记忆还不够,还需要有内在的reward。因为在你真正证明那件事之前,没有任何外部奖励(Extrinsic Reward)——你没有获奖,没有做成任何“可交付”的事情,也没人给你feedback(反馈)。你需要自己给自己反馈。

这是所有Innovator最重要的。无论你是艺术家、科学家、文学家,还是任何类型的创作者,对吧?

其次,作为一个Organization(组织)

其一,你需要解决的问题是:Agent和Agent之间怎么协作?怎么让Multi-Agent(多智能体)协作scale(规模化)

现在的Agent就像一个普通大学生,做一个数字化的实习生。或者说,AGI就是一个普通一本大学生在电脑上能做所有事情的一个能力。

其二,搞清楚人类社会的边界是什么?当然这覆盖80%或90%的人。

但我们最崇拜的人,是哪两种?一种是创造新东西,在认知或审美上开创新领域的人:爱因斯坦、高更、梵高、贝多芬;另一种是能创造新组织、伟大组织的人:伊隆·马斯克、乔布斯。

很自然,个体的创造力和组织的协作能力——都非常重要。

② 下个阶段需突破3个关键点

第一,Utility(效用)的问题

为什么我们现在的模型,推理很强,考试很强,玩游戏很强;但它还没创造出足够经济价值?——根本原因是:它没有这些Context(上下文)

人类社会比较tricky(复杂微妙)的一点是:当然,我们确实写下了很多东西——我们用文字、Google Doc、Notion,记录了很多东西,但很多Context永远只存在人的大脑,是通过一个分布式的系统来维护。

比如,你老板跟你之间的行为习惯,或者一些很难用语言总结下来的信息。这些Context存在于人的脑海里。人没办法把这些东西全部写下来。

这就导致——人是不可或缺的。

只有人有这样的能力:进入一个环境,获得这个环境里的Context。

如果这个问题解决了,Utility问题就可以在很大程度被解决。

第二,是Intrinsic内生奖励问题。

很多创新者之所以能在没有外在激励的情况下坚持,是因为他有内在的价值观或激励机制。

这个问题,AI和神经科学已经研究多年婴儿是最典型的例子。

当他们是婴儿的时候,他们拥有基于好奇心或自我激励的机制。比如,很多婴儿会反复玩一个玩具,用嘴去咬一个东西,或者做一些看似“无意义”的动作。

你说他获得了什么reward吗?他没有升职加薪,没有拿到钱,没有任何外在激励——他只是好奇。他的动机是:“如果我做这个事,我会有什么样的感觉?”如果这个感觉是新的、不同的,他就可以从中学习。

就是说,好奇心、掌控感、安全感,是一些内在动机。正是这些东西驱动了人去做某些事。否则,很难从纯粹理性角度解释:他为什么要做?

但有意思的是,当人长大之后,会发生重要变化

当你是婴儿,你对世界的理解,是基于视觉、触觉,基于物理世界的。你学习的是,怎么把触觉、听觉、视觉,以及对骨骼系统的控制结合起来

当你长大之后,你对世界的理解方式变了,变成一个基于语言、推理、文字系统的理解。你开始思考:这个世界是怎么运作的?我怎么才能开一个公司?怎么才能升职?怎么才能做成一些事情?你玩的,不再是一个物理游戏,而是一个文字游戏。

在这个文字游戏里,当然也存在内在激励,但又好像和婴儿时期的好奇驱动不太一样。

这是AI面临的挑战:传统AI,比如玩迷宫、做机器人仿真,它可以定义一些基于世界模型或者模仿婴儿阶段好奇心的内在激励。

但当AI在玩的是一个语言游戏,要怎么定义内在激励?——这个问题就变得不太一样了。

第三,是多智能体之间的协作问题。

基于基础模型往上长,Agent生态树在我的脑海中,呈现的是这样一个结构

首先,一个方向是:fundamental research(基研究)怎么演变?或者说,方法怎么演变?

其次,另一个方向是:应用,或者它的交互方式interaction)有怎样的演变?

这两个方向之间有关联但它们需要不同的人去探索不同的方向。

比如Cursor并没有在fundamental research基础研究)上做什么创新,但做了交互方式上的创新。

fundamental research上,比较重要的有三方面:

一个是Memory(记忆);

一个是Intrinsic Reward(内生奖励机制);

还有一个是Multi-Agent(多智能体系统)。

这也跟OpenAI提出的Innovator(L4、创新者)和Organization(L5、组织者)框架很像它们属于正交,可以并行发展

所以,我们需要解决多智能体之间的协作问题。

4.第四支柱:系统思维——拥抱“简单且通用”的设计哲学

研究心法:追求简单而通用

我一直有这个非共识:我想要去做Agent,一直想做简单且通用的东西我不想做一个很复杂、但只能在一个领域奏效的东西。

这个方向在传统意义上很难被接受,大家习惯了做AI的方式:把问题不停细分,做很多细分方法可能并没有多少人想做一个简单且通用的系统,或者认为这是可能的——尤其20年之内。

现在我还是觉得,我自己最喜欢的工作是ReAct。之后,基于这两个方向:一方面做更多方法(method),一方面做更多任务(task)

但总体来说,我的研究有两个核心:一是怎么去做一些有价值、和现实世界更相关的任务和环境;二是怎么去做一些简单、但又通用的方法。

所以,Agent最吸引我的就是它的可泛化性generalizable)绝大多数事,你都可以用语言表达。

我当时隐隐约约有个直觉:你如果真想去实现AGI(通用人工智能)——那时还没人提“AGI”这个词但如果你真的想做一个非常通用的系统general system),你就得去构建一个智能体。

创新策源地:从垂直细分到通用思维的AI范式回归

回头看AI历史,很久很久以前,从Herbert Simon(赫伯特·西蒙)在1960年代开始,大家最早的想法就是要做一个Agent。

当时大家的野心很大——想用一个夏天搞定视觉,再用另一个夏天搞定语言,拼在一起,去做一个Agent,他就应该比人还聪明但这事太难了。

慢慢地,AI变得非常碎片化大家研究的问题越来越小。比如,有的人研究视觉一小部分问题,有的人研究语言某个子任务,越来越细分,越来越垂直。

但到2015年之后,开始出现Scaling Law(扩展规律),包括很多研究突破,历史上一些关键时刻也在提示我们:

也许我们应该从这种“垂直式思维(vertical thinking)”重新回到更“通用式思维(general thinking)”,再去尝试构建真正通用的系统。

个人品质:以杂学积淀塑造通用性思维与跨界视野

成长路上,对我启发大的是看书。我是一个喜欢看杂书的人。什么书都看,什么电影都看,什么地方都想去。

我从小就是一个比较general(通用)的人——我想试图变得很通用,试图了解很多不同的学科,做很多不同的事情。

但后来我发现,一个人即使再聪明、再有精力,他能理解的知识或能做的事情,也只是人类社会积累的知识的很小一部分。更好的是,你去创造一个比你更通用、更general的事情。

我好像一直对于通用性,有一种执念或追求。通用性意味着什么我不知道,但我从小就是想学习很多不同学科,都很有意思。

我在姚班很多同学,他们是那种很deep(深度的)、很focus(专注的)同学——我去做竞赛,我就把这个事做到极致,不停刷题,做到世界金牌。

但我好像不是那种性格,我是那种——我会看很多数学,也会看很多历史,会看各种各样乱七八糟的东西。

三、实战推演:

在转折点上如何决策与行动?

1.给创业者的行动指南:在夹缝中定义未来

第一步:找到一个真正有价值的场景

Agent创业,当前主要瓶颈是算力。Agent的token用量惊人,单个用户消耗可能是Chatbot的500到1000倍,叠加几百万用户后成本极高。

这种情况下,Agent该如何扩展?我觉得最重要的点是——你得先找到一个好的应用。

事实上,Cost(成本)本身不是最大问题,问题是你的成本并不能证明你的performance(性能)或value(价值)是合理的。

如果这是一个很有价值的事,我花500美元,但可以赚1000美元——根本不是问题。这不是technical bottleneck(技术瓶颈),而是product-market fit(产品与市场契合度)的问题。

所以,现在最关键的,是要找到真正有价值的应用。

壁垒构建:短期交互创新,长期Context用户上下文)

首先,短期内要靠交互创新。

比如,Manus交互创新想象空间是很高的

的一个价值是给人非常general(通用)的感觉你可以有每个阶段的Killer App(杀手级应用)比如它做PPT特别好,做Deep Research特别好,或者做其他东西特别好。

iPhone或iPad是非常通用的产品形态,但它一开始,都有一些Killer App支持它有momentum(增长动能)。包括ChatGPT,包括微信,很多伟大产品都这样。

你有一个足够通用、简单,或第一性的交互方式,它有很多想象空间。但你去维护它,或者设计路径的时候,你能有各种各样的应用,使它不停地增长。

其次,长期靠积累独特的用户上下文(Context)和环境。

现在对于ChatGPT比较重要的是Memory(记忆)这是可能产生壁垒的地方。

如果没有Memory,大家拼谁的模型更强。但有了Memory,拼的不仅是谁的模型更强,而是用户用哪个更多、哪个粘性更强。

我积累了更多Context,它能给我更好体验,我就会有粘性——这或许是研究优势转化成商业优势的方式。

警惕“数据飞轮”幻觉

大多数公司还没有形成数据飞轮,他们依赖模型变好,利用模型变好的溢出能力。

如果你要有数据飞轮,首先你要能自己去训模型,并且能通过交互有很好的reward,使你能把好的数据和不好的数据分开。

比较成功的是Midjourney(用户偏好直接驱动模型优化),有非常清晰的reward——人更喜欢哪张图,这个reward和应用是对齐的,reward做得更好,公司就更成功,模型也更好——一切都对齐。

有了这种情况,才能自己训练模型,做数据飞轮。

这个过程必须比较非主线。因为如果很主线,我也可以通过Pre-Training或RL提升能力,靠泛化或其他方式。

总的来说,只有像Midjourney这样,奖励机制与产品价值完全对齐的闭环,才能形成飞轮,大部分公司目前还没有形成飞轮。

2.给企业决策者的战略研判:防守与进攻

CEO的第一课:以技术认知驱动战略决策与价值创造

假若我是一个CEO,做的第一件事就是亲自深度学习技术本质,做出不被误导的战略决策。

首先,我肯定会学习,我会想弄清楚这个事情到底是什么。

如果你作为CEO不懂这个事情,所有事情会变得很难。很多时候,一个公司的bottleneck(瓶颈)就在于,CEO对这个事理解不够。如果你不理解,去招一些很好的人、做一些事情,你很可能被他们忽悠。

其次,要从创造新的价值来思考问题。

毕竟你不是技术专家,而是一个CEO,你有一些场景、一些资源、一些优势。从第一性原理看,一个新的技术产生了,你要思考的是,怎么用这些新技术结合你现在的资源去创造新的价值。

此外,你可以尝试做一个和当前业务完全不一样、但价值非常大的事情,比如ChatGPT,但对大多数公司来说,即使很有钱、很强,也不一定make sense(合理)

大公司策略:依托护城河优势防御颠覆性交互创新

站在公司的角度看,大公司的战略其实很简单,依托现有用户基础、数据资源、场景优势以及Context(护城河),稳健融合Agent能力,重点防御颠覆性交互方式带来的创新冲击。

为什么要重点防御?原因是全新的交互方式会改变我们的世界。就像一开始互联网诞生,最早Super App只是把邮件升级成Email,Amazon已经算非常创新的东西了。现在就像那个阶段——我们的想象力仍被以往的交互方式所限制,还有许多尚未诞生的交互方式。

但肯定会有很多不同的交互方式,练完全不同的模型创造出不同的系统。

当然,这类东西很难和ChatGPT比强弱,它们是不同应用,有不同价值。比如,微信做Agent

如果我是微信的一号,对做不做Agent我可能会不急,先观望观望。

我好像没有理由要急。我会观察,我会学习AI,会观察有没有什么新的交互方式很有意思。但我不会急着去做很多事——我有易守难攻的地方,为什么要急着进攻呢?

比较危险的是一个颠覆性的创新。

真正的危险,不是说一个类似于微信的东西打败了微信,而是一个很不一样的东西打败了微信

就像微信打败了QQ当时担心的并不是一个类似QQ的东西打败了QQ,而是一个很不一样的产品去打败这个东西

我们需要对颠覆性创新有所警惕。

投资与布局逻辑:聚焦特定Context与数字环境构建的平台

作为投资者,如何做好allocate(分配)这是个很好的问题实际上取决于你有多少精力,或者有多少资源分配颗粒度。

当然现在OpenAI、Anthropic,这些模型层公司,大概率会有更大价值。

还有一类很有价值的,是能积累User Context(用户上下文),或者能构建特殊Environment(环境)的公司。最终如果AI或AGI是一个系统,它需要有Intelligence(智能),需要有Environment,还需要有User Context,或者对用户的理解。

现在有很多User Data(用户数据)或User Context的公司,有点像发明车之前的煤炭、煤矿,或者像发明汽车之前的石油公司。

从这个角度,微信或大平台,还是一个易守难攻的好平台,它积攒大量的Context。

如果Intelligence是一个可以逐渐民主化、逐渐变得便宜、逐渐普及,拥有这样的平台,拥有这样的Environment,拥有这样的Context,可能会是一个很强的壁垒它可能还是一个很好的投资。

3.给研究者与个人的启示:在范式转换中定位

职业选择:在时代机遇中追寻高上限价值

我的成长路径其实挺按部就班的,也没有跳级,没有做什surprising(让人惊讶)的事情。

但我对一个东西的价值,或者taste(品味),有自己的看法。大家往往会倾向于做一个确定性比较高的事情,包括做研究、做公司。

但我觉得恰好是这个时代,你去做上限更高的事情是更好的因为现在有一个巨大的机会。

如果没有这样一个巨大的机会,最佳路径可能是去做incremental(渐进式)、确定性强的事情,一步一步地积累但恰好有一个上限非常高的事情。

如果你敢想,或者你胆子特别大,或者你想象力很丰富,就会有好事发生。

思维变革:从算法改进转向任务定义

现在,AI科研范式重心已经从上半场转移到了下半场,即从算法改进(Method)已经转变为任务环境设计(Task/Environment)

这带来一个本质变化:以前我面对很多怪兽,需要造出各种不同武器去打它们;现在我有了一把通用武器,比如机关枪,我不需要再为每个怪兽单独造武器。接下来要思考的问题就变成:我该朝哪个方向开枪?

现在方法的问题已基本解决,真正重要的是——我们要用这个通用方法,“我能解决什么问题”转变为“我应该定义什么问题”。

总之,我们要成为一名“问题设计师”和“任务架构师”。

③ 终极动力:为世界创造渴望,过程中享受有趣

关于驱动力,用一个非常俗的话说希望你对这个世界创造一些不同——探索新的、根本性的研究,是一种创造不同的方式;创造一种完全不同的新的产品形态,也是一种创造不同的方式。

如果我现在去做一家类似xAI或Thinking Machine的公司,或者做一个类似Chatbot或Assistant的产品,还是可能赚很多钱,商业上很成功;但如果我做了一个形态很不一样的东西,失败了我起码探索了不一样东西

我导师令我印象最深的是这样一句话学术圈经常发生这样的事——你有一个想法,然后别人做了,你会很烦。他说:If someone else can do it,then it's okay to let them do it(如果别人能做,那就让他们去做吧)

所以,我觉得真正的价值在于对这个社会产生价值。

从人类全局的角度,如果这个事情很多人能做,别人做可能是不是也没有什么区别?对这个社会,或者对整体来说,似乎没有什么变化。

或者,你也可以去做一些不一样的探索。我觉得,最终你要对这个社会产生价值。

但这个时代很幸运的一点:这个技术非常通用,这个技术非常伟大,有足够多探索的空间。

另一点是,我想让生活更有趣,更有意思,更快乐,就去做一些自己喜欢的事情。

这很难用语言解释,就是一个taste(品味)或preference(偏好)的问题。

参考资料:

1.2025年9月11日,《独家对话OpenAI姚顺雨生成新世界的系统》,语言即世界language is world

*文章为作者独立观点,不代表笔记侠立场。

相关内容

热门资讯

ChatGPT将引入广告,构建... 来源:市场资讯 (来源:三言科技) OpenAI宣布将在ChatGPT的免费版和入门订阅层级「Cha...
商业航天企业IPO迎新进展 来源:中国证券报-中证网 1月17日,中国证监会公开发行辅导公示系统显示,商业航天企业中科宇航近日辅...
2026 高通边缘智能开发者生...   1月15日,2026高通边缘智能开发者生态大会在成都举办。产业链上下游核心企业、生态伙伴、专家学...
姚顺雨最新访谈:AI下半场,机... 内容来源: 2025年5月,语言即世界工作室,张小珺商业访谈录对话姚顺雨分享。 分享嘉宾: 姚顺雨,...
民生问答墙丨浙江女代表们解码A... 浙江省两会期间,省人大代表、康奈集团有限公司总裁郑莱莉与省人大代表、京东方华灿光电(浙江)有限公司全...
红魔11 Air:AI游戏圈搜... IT之家 1 月 17 日消息,红魔官方今天在微博宣布旗下 11 Air 手机将搭载旗舰同款系统 R...
免费版ChatGPT要看广告了... 来源:@华夏时报微博 【#免费版ChatGPT要看广告了##ChatGPT要投放广告了#】当地时间1...
贴广告的ChatGPT,一夜之... 来源:市场资讯 (来源:机器之心Pro) 编辑|泽南、杨文 这一天终于还是来了。 周六凌晨,Ope...
中央广电总台2026年春晚融入... 新华社北京1月17日电 中央广播电视总台2026年春节联欢晚会17日完成首次彩排。今年春晚是“科技+...
泰德兴取得全自动多工位埋螺母设... 国家知识产权局信息显示,昆山泰德兴自动化设备有限公司取得一项名为“一种全自动多工位埋螺母设备”的专利...
2026 年十大战略咨询大师推... 2026 年中国战略咨询行业正经历技术重构与价值升级,AI 大数据驱动成为核心发展特征,行业从传统经...
三一重能15兆瓦风机获北京市“... 上证报中国证券网讯(记者 夏子航)1月16日,记者获悉,三一重能15MW风电机组SI-264150正...
西贝宣布将关停102家门店,涉... 处理舆论、回应社会关切,实质上已是现代企业不可或缺的经营动作 文|《财经》研究员 李莹 记者 杨立赟...
4130万篇论文洞察:AI让发... IT之家 1 月 17 日消息,芝加哥大学社会学家詹姆斯 · 埃文斯(James Evans)团队于...
记者手记|在马来西亚,与机器人... 新华社吉隆坡1月17日电 记者手记|在马来西亚,与机器人“面对面” 新华社记者王嘉伟 程一恒 马来西...
两个Ilya的宿命轮回:老黄1... 新智元报道 编辑:倾倾 【新智元导读】 OpenAI刚花1亿美金买了个「数据转接头」,只为看清你的...
【诗词】蓝水河:以马斯克最新言... 蓝水河:以马斯克最新言谈集句嵌字人类可实现半永生 人间物色近来新,类我时挥笔底春。 可见寻常身外事,...
100%关税!美国,突发威胁!... 美国在半导体领域动作不断。 据最新消息,美国商务部长卢特尼克威胁称,如果韩国存储芯片制造商不在美国增...
美政府推动科技巨头为AI用电买... 来源:北京日报客户端 据美国方面16日消息,由于人工智能产业发展加大了用电需求,美国政府与多个州将推...
如何做AI时代商业新物种?邱振... 如何在碳基生命被AI颠覆的时代里,定义自己的未来?香港全球化中心创始人、德国图宾根大学博士邱振海,在...