从理解“物”开始让机器人学会物理常识。
作者|苏霍伊
编辑|王博
邵林的微信头像是一张旧照片。
斯坦福大学的AI Lab里,Franka机械臂配着Schunk手,稳稳举起一只苹果。他说,这张图能把他一下子带回读博时的状态:调试、对齐、训练数据,一遍又一遍,让机器人手掌学会“如何拿起”。
邵林微信头像中的机械手臂
十年前,邵林的这项研究被称为“跨本体抓取(cross-embodiment grasping)”,是让机器人从实验室走向现实世界的重要一步。
彼时的机器人研究还远未“破圈”,邵林与在吴恩达组的同窗田野却已开始围绕一个问题反复打磨:什么时候,机器人能真正进到寻常人家。田野是四川人,会做川菜,也常带邵林在湾区吃川菜。“现在回想起那段记忆都伴着川菜的香味儿。”邵林笑着对「甲子光年」回忆。
现在的邵林是新加坡国立大学助理教授,也是具身智能企业RoboScience的联合创始人、首席科学家。邵林师从Jeannette Bohg,联合导师为Leonidas J. Guibas,他也是亚洲唯一的IEEE机器人学习技术委员会联合主席。
而带邵林吃川菜的田野是RoboScience的联合创始人、CEO,曾任苹果公司设备端机器学习平台团队技术负责人。
邵林(左)和田野(右)合照
做了太久朋友,默契自然长出来,“有时候一个眼神就知道对方在想什么”。他们也反复确认一个方向:做有温度的技术,以人为中心,让产品去解决真实问题,而不是只在论文里漂亮。
他们的技术和产品也获得了投资机构的认可。今年7月30日,RoboScience宣布完成近2亿元天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。
但我们有一个疑问,既然两人相识十年,为什么不是更早动身创立RoboScience?
邵林的回答是“天时地利人和”。他们并不看别家怎么做,而是先把底层技术和路径做足验证,做了长期规划、从多视角论证可行性。
真正的触发点出现在2024年:大模型的进展把“泛化”推到眼前,他们开始系统讨论如何设计决策系统,让具身智能具备类似ChatGPT的广泛能力。两人对“以人为中心、做有温度的技术”有共识,沟通频率很高。
在热度之外,邵林仍把“落地”当作关键字。
他的判断标准很简单:现有技术能在短时间内稳定运行,并且能带来足够的商业回报。其他的,则继续按多年前形成的节奏来——把实验台上的那只苹果,真正搬进现实世界;把饭桌上反复咀嚼的那句话,落在具体场景、真实的生活。
本文,「甲子光年」对话新加坡国立大学助理教授,RoboScience联合创始人、首席科学家邵林。
1.谈模型:VLA应被视为输入到输出的决策映射目标,而不是陷入概念之争
甲子光年:我们开门见山,具身智能赛道竞争激烈,RoboScience要做的是什么?
邵林:我们主要关注并开发具备通用能力的具身智能系统,让机器人真正走进千家万户,并能在真实世界中执行多样化、复杂的任务。
甲子光年:在LLM(大语言模型)领域,有够多且够好的数据,训练出来的模型性能通常会越好。但是在具身智能领域,似乎效果并没有那么好,为什么?
邵林:新一代AI模型绕不开的话题就是数据。
VLM(视觉-语言模型)和LLM,本质上在于CV(计算机视觉)和NLP(自然语言处理)的数据格式。CV的数据是像素,尤其在图像里;NLP里有tokenization(词元化,把文本切分为字、词或子词的过程),这对它们来说很直接。这里会出现scaling law(规模法则)现象,更多数据被投影到同一坐标系,就能设计更大的模型,效果更好,最后形成一套训练体系。
具身智能当然也想复制CV和NLP的大模型成功,只是具身智能的数据多样性远超这两个领域。如果不解决数据格式统一的问题,而是直接套用CV、VLM或LLM的范式,就会遇到很多问题。
甲子光年:具身智能的数据多样性体现在哪些方面?
邵林:一是任务多样性。家用机器人进入真实环境,我们希望它能做各种事,比如端茶倒水、洗衣做饭。这些任务差异很大。其次是物体多样性。在家里它要处理柔性物体,比如叠衣服,就必须理解可形变属性;开门关门涉及铰链特性;硬质物体又是另一类;可形变物体还分1D、2D、3D,物理属性各不相同;还涉及物体的几何形状差异。机器人要学会用工具、操作物体,就要理解几何差异。同时还有硬件本体的多样性,我们叫cross-embodiment(跨本体)。现在各种硬件设计百花齐放,比如末端执行器有两指、三指、五指的,驱动方式的结构也不同。
这些情况让具身智能大模型的开发更复杂。因为执行任务最终要依靠本体,模型要适配不同硬件。如何让机器人理解这些特性,就让数据的收集、处理和学习更难。
如果要有一个统一的大模型,它必须封装三方面的多样性:任务、物体和机器人本体。需要设计统一的数据格式,把不同数据投影到同一坐标系,在此基础上再设计训练范式,才能实现最大程度的泛化。这才是核心问题,需要深入思考,而不能简单套用CV或NLP的经验。
甲子光年:你们的解决方案是什么?
邵林:延续刚才提到的统一数据格式问题。统一的数据格式是构建具身操作大模型的前提条件。只有找到一种通用的描述方式,才能把大量数据纳入同一体系,充分挖掘其中蕴含的知识。
一个统一坐标系的重要性非常关键。物体的运动轨迹可能是相对统一的数据格式。尤其在manipulation(操作)场景下,本质就是让机器人操作或接触物体,对其施加力量,改变其运动状态,使物体从状态1转变到状态2。
这种状态转变本质上就是运动轨迹的变化。具身操作最直接的体现就是物体在三维空间中的形态和位置发生变化,我们称之为object trajectory(物体轨迹)。
它可以较为完整地描述各种具身操作任务。以object trajectory(物体轨迹)为核心,可以逐步扩展:不同机器人对不同物体施加怎样的操作,从而导致不同轨迹变化并表征不同任务。任务、物体和本体的多样性,都可以通过object property逐步展开,最终形成一张覆盖这三个层次多样性的网络。
基于这样的思路,我们开发了VLOA(vision-language-object-action,视觉-语言-对象-动作)模型。它的特点是以vision和language作为输入到规划层的通用任务规划模型,输出object trajectory作为中间接口,执行层的通用操作模型理解object应发生的状态变化,以此生成为达成此状态变化需要的机器人的action。
甲子光年:VLOA能做到任务、物体和本体的三维度泛化,请问具体是怎么做到的?
邵林:泛化是必须考虑的,也是基础。VLOA的特点在于,它通过让机器人预测物体的运动轨迹来实现对任务的理解和多样性的把握,更加专注于任务相关状态的变化信息。
在底层,从物体的运动轨迹到机器人本体再到动作输出,我们让机器人去理解物理规律,并以此作为指导。假设我们已经知道机器人希望物体发生什么样的状态变化,那么它就需要理解该施加什么操作,才能让物体沿着预期轨迹发生改变。这本质上是一个基于物理规律的过程,使泛化的基础更扎实、更接近事物本身的状态。毕竟,操作的本质就是机器人与物体接触,传递力和力矩从而改变物体的状态。
甲子光年:VLOA的设计思路和VLA(Vision-Language-Action,视觉-语言-动作)模型相比,最大的不同是什么?
邵林:VLOA主要关注具身智能操作的核心点:改变物体的运动状态。在此基础上进行架构设计,让VLOA具备了一些优势。
第一个优势是中间态的描述。这种分层使得数据的收集和处理更有条理。上层从V到O的过程,是机器人或具身操作模型把任务的语义信息映射到物体的状态变化,即物体应该发生怎样的变化来代表任务完成。在这一层,我们能够充分理解各种不同来源和形式的数据,因为它并不直接涉及具体的执行方式。这种显式的中间态同时带来了可解释性和安全性。
下层从O到A的过程,则要学习物理规律。机器人需要依据物理规律去操作物体,使其产生我们期望的运动状态变化。换句话说,上层学习的是语义信息,下层学习的是物理规律。这样一来,就可以把数据的收集与具体执行解耦:上层可以从各种数据形式中学习语义,下层则以物理规律为指导,为泛化提供一个稳定的基础。这是VLOA的第二个优势。
第三个优势是VLOA更贴近物理操作的本质。VLOA以物体运动轨迹的变化为核心,它的inductive basis与传统模型不同,泛化基础更加接近真实的物体操作和人与机器人交互的情况,因此数据利用率也会高得多。
甲子光年:最近业界出现了一些对于VLA比较尖锐的评论。你对VLA的看法是什么?
邵林:我认为VLA本质上并不是某一个具体的模型,是输入到输出的决策映射机制,是一个目标,其实我们的VLOA是比VLA更进一步。
我们希望构建一套系统来实现通用的具身智能。机器人的最终运行系统一定需要感知,而视觉和语言是最主要的信息来源,作为输入端;行动则是机器人的输出。
不论外界评价好坏,都没有必要陷入概念之争,而是去思考如何通过架构的创新去不断提升模型的能力。从决策系统的角度看,这样的体系一定会存在。至于现阶段,我们是采用完全端到端模型还是可解耦端到端模型,以及数据收集过程中存在多少困难,这些问题并不会改变视觉及语言、行动作为“输入到输出映射”的核心定位。
甲子光年:你们在做VLOA模型时,对安全性是否有考量?
邵林:安全问题非常关键。如机器人部署在厨房里拿刀切菜时,我们不能允许它完全以黑盒方式运行,且必须清楚它在执行任务时的目的、意义以及预计的行为模式,才敢放心使用。
现在行业里在设计时往往没把安全放在核心位置,但我们从一开始就考虑了这一点。
我们的思路很简单:如果未来真的要有一个具身操作大模型,它必须满足一定的原则,那就要反推回来,看看需要怎样的设计、架构和数据处理方式。
所以我们设计了object trajectory(物体轨迹)。在VLOA的中间接口里有一个明确的状态预测,这样就可以在执行动作之前,用各种模型和方法去验证它。比如在仿真环境里先检查,机器人在改变物体状态的过程中会不会带来不安全的结果。相当于多了一道安全阀,真正执行之前就能预警。
我们可以显式地理解和验证机器人计划中的物体运动轨迹,在实际执行过程中一旦出现偏差,下层的O到A“快脑”系统就能及时纠正。它的优势在于:执行前能通过预测避免风险,执行时一旦偏差也能快速修正。这种多层的安全机制有效弥补了安全性不足的问题。
甲子光年:中间态是指动作发生的过程吗?
邵林:这里的中间态是指模型能够预测或理解被操作物体的运动轨迹状态。像把一个杯子从桌面上拿起,这个过程的意思于杯子的位置从桌面转移到空中,就表示任务完成。物体在三维空间中的位置变化,就是它的运动轨迹,而这正是中间态的描述。
2.谈范式:分层与端到端,两者并非互斥关系
甲子光年:我们了解到,RoboScience最初采用的是“快慢脑”分层模型,那它和现在的VLOA是什么关系?
邵林:可以这样理解——有规划层和执行层。规划层对应慢脑,执行层对应快脑。从V到O的过程是规划流程,对应慢脑;从O到A的过程是执行流程,对应快脑;我们的模型虽然分为上下两层,但也是可解耦的端到端模型,规划和执行层模型各自通用,可以分别端到端训练, 因为有中间Interface的连接也可以作为一个整体进行端到端训练。
甲子光年:假设数据足够多,单一系统的端到端VLA最终会比分层端到端的泛化性好吗?
邵林:老实说,这既没法证明,也没法证伪。因为这种情况根本没有发生过,我们也不知道要多少数据才算“足够多”。如果这个问题要两百年后才有答案,那现在去讨论就已经失去了实际意义。但它依然是个值得思考的关键问题。
在现有的结构和数据规模下,我们其实做了很多实验,并把最新的结果放到了网上,有个工作叫VLA-OS(论文链接:https://arxiv.org/pdf/2506.17561)。实验结果表明,在目前的条件下,分层端到端确实比单一端到端表现出更好的泛化能力。这不是我的个人观点,而是实验得出的结论。实验现象表明确实存在这样的结果,但至于为什么会出现这一情况,我们还需要进一步分析。
甲子光年:你觉得端到端的范式是不是一条通向AGI的可行路径?
邵林:我认为外界对端到端存在一定的先入为主和过度期待。
实际上,“端到端”这一概念本身带有模糊性,尤其在“端”的定义上,如果不加以明确,仅仅笼统地讨论这一范式,就容易产生偏差。端的界定决定了具体的设计路线和实现方案。这一点必须澄清。但同时,端到端无疑是现代人工智能的一项重要技术。它的核心特征在于将传感器或观测数据作为输入端,直接对应到输出端,通过整体参数进行联合优化(joint optimization)。这种方式使得导数能够直接贯通输入与输出,进行全局优化,从而显著减少中间环节的工程干预。
数据驱动的方法能够大幅降低人工在工程环节的投入,因为它覆盖了从输入到输出的完整过程。从这一角度来看,端到端确实是一种极具价值的技术范式。但需要强调的是,将端到端与分层对立起来的观点并不成立。端到端的体系中完全可以包含分层设计,而分层的实现过程同样可以采用端到端方法,两者并非互斥关系。
甲子光年:各家对分层结构的设计也不同,我们发现你们选择了显式信息传递的路线,你们的考量是?
邵林:选择显示信息,第一是因为它能充分承载核心信息。就像你说,各家在分层结构上的设计都不同,即便都是显示信息,如何取舍也是他们对智能方向理解和思考深度的折射。
选择object trajectory(物体轨迹),我们考虑到第一它的表征能力足够强。轨迹能描述各种物体的状态变化,包括柔性的、铰链体的,甚至区域物体的变换,都能用轨迹的形式表现出来。它不仅信息足够丰富,而且和操作任务的结果高度契合——因为操作的本质就是让物体状态发生变化,而轨迹正好就是对这种变化的直接刻画。同时,它还能把无关的东西滤掉,比如背景光,这些和操作任务没关系。既保证了表征的充分性,又去掉了噪音,更贴近任务的核心。
其次,它在数据利用上有优势。轨迹预测本质上是语义信息的学习,只需要采集相关语义数据就能训练,不局限于机器人自己做过的动作。比如人操作时物体状态的变化,机器人一样能学。它让数据可以跨平台利用,不受限制。而且轨迹本身遵循物理规律,我们可以通过大量仿真生成海量轨迹数据,让机器人在低成本下快速掌握物理规律。
第三,还有安全性和部署频率的考虑。我之前提过,就是它能提供可解释性和可控性。分层设计让底层运行频率比上层高,可以更快响应,相当于有一个“安全阀”,保证系统运行的稳定性。
甲子光年:仿真引擎是具身智能研发的“训练场”,不管端到端还是分层,都离不开它。那么,你们的仿真引擎是自研的吗?
邵林:是的,我们非常重视仿真开发,仿真能为大规模操作模型提供丰富的监督信号。这也是为什么我们一定要自己做仿真。同时我们在使用上有独特的要求,而现有的仿真器暂时无法满足,所以必须自研。我们主要从两个方面做了研究。
一是物理准确度。我们希望仿真器在碰撞和接触的模拟上更精准。所有物理引擎的底层都是数值优化问题,因此我们在数值优化和求解器上投入了大量研究。外在表现就是碰撞模拟和力计算更准确,避免了穿模现象。比如机器人抓水杯,如果杯壁较薄,普通仿真器可能出现手指穿透杯壁的情况,这是严重违背物理规律的,而我们的引擎在设计之初就杜绝了这一问题。它还支持柔性物体模拟。我们也是全球第一个让机器人打领带的团队。打领带过程中会出现各种缠绕和形变,我们的仿真器能避免领带穿模,并提供准确的力和碰撞计算,这保证了机器人能真正完成这一复杂操作。
二是可微机制(Differentiable Mechanism)。传统物理仿真器大多只做前向预测,也就是给定输入预测未来状态。而我们的仿真器还能提供反向计算:如果想让未来状态发生变化,输入端该怎么调整?这相当于在物理仿真中加入了可微运算图,类似神经网络中的反向传播(backpropagation)机制。这样一来,系统参数的调整就变得更高效。
甲子光年:你刚才提到穿模的情况是因为很多数据并不符合物理规律。那你们的数据都由哪些部分组成呢?是不是主要来自你们的物理仿真器?
邵林:我们对于语义信息的理解,不止依赖物理仿真引擎。因为仿真引擎更多提供的是最底层的运动规律的数据仿真,它很多情况下并不涉及语义信息。在仿真环境里去搭建大量的语义信息其实是很难的事情,尤其是构建和搭建场景,这个代价其实非常高。
所以在底层,物理引擎首先给我们提供的就是物理规律的学习。它提供的主要是非语义条件下的物体操作数据。比如我有一个物体,我想让它朝另一个状态去变化,那么物理引擎告诉我该怎么操作,它关注的只是物理过程,而至于这个状态本身是不是带有语义其实并不重要,我们把这部分和语义剥离开了。上层才是学习语义信息的地方。
在语义层,我们可以充分利用互联网数据,包括大量的视频数据去学习。因为语义信息并不直接涉及物理执行过程,所以可以从视频里去学,理解操作背后对应的语义是什么样的。除此之外,我们还会用一些说明书类的数据,虽然它们的描述可能不够丰富,但也能表现出物体操作的一些过程,我们的模型同样可以覆盖并吸收这种数据来源。
这样分层之后,不同来源的数据都能被我们统一纳入一个体系,就像“海纳百川”。模型能从海量数据里抽取和学习有用的信息,把其中的规律和语义都吸收到位,从而支撑出更好的模型。
甲子光年:“一脑多型”具身智能发展目标,它和端到端、分层、仿真引擎之间是方法论与工具上的关系。你怎么看“一脑多型”?
邵林:“一脑多型”背后的逻辑就是让操作的软件或者模型能够去适配不同的硬件。机器人设计空间很大、构型很多,操作模型需要理解这种设计空间的分布,然后根据不同的构型去适配不同的输出方案。这样一来,它就能跑在各种硬件上,有点像操作系统能把硬件的多样性都封装起来一样。
它的意义也很直观。像我们自己在做硬件,不同版本迭代的时候设计会有差别,不同场景需求的硬件也有差别,但这些差别都可以被模型覆盖住,把不同构型的优势发挥出来,这样对硬件的赋能就会很强。
“一脑多型”还有个好处,就是数据可以迁移。一个构型采集到的数据,可以迁移到另一个构型去用,让不同本体之间能够共享知识。此外在快速迭代和落地的时候也很有用,不管构型怎么变,只需要适配同一个操作模型就行了,模型会随着适配的硬件越来越多而变得越来越强,类似科幻小说里的三体人,所有不同的身体都可以共享知识。
3.谈难点:要让模型把不同的技术和操作真正融合
甲子光年:我们注意到,你们发布的视频里展示的是拼家具。在这个过程中,主要遇到的操作难点有哪些?拼家具是不是相对来说不太涉及柔性物体的操作?
机器人看说明书拼家具
邵林:拼家具这一大类任务还是会涉及到不少柔性相关的操作,只不过我们选的那把椅子没有用到柔性物体。所以在这个过程中,难点主要体现在几个方面。它需要双手操作,也就是双臂操作(dual-arm manipulation),这要求我们去解决物体重定向(object reorientation)的问题。在实时重定向的过程中,就会涉及到手内操作(in-hand manipulation),同时还要充分利用外部灵巧性(external dexterity),也就是机器人要理解并利用周围环境的约束和条件,才能更好地完成任务。
另外,还涉及到一系列非常精细的动作,比如插接(peg insertion)这样的步骤,这就和机器人装配(robotic assembly)的过程相关。在这些过程中,需要对力的控制与感知(force control & sensing)有很高的要求,还有多模态的融合(multimodal fusion)。可以说,拼家具几乎涵盖了绝大部分机器人操作的难点。
但关键不在于这些具体的难点,而在于如何让模型把不同的技术和操作真正融合。
因为在实际执行过程中,没人会去区分现在是in-hand manipulation、还是external dexterity、还是object reorientation、还是peg insertion。大家真正关心的是任务能不能完成。
甲子光年:今年你们团队拿下了ICRA的最佳论文(机器人操作与运动),主要是改进灵巧抓取的新方法,即引入 D(R,O) 表示法。可以介绍下吗?
邵林:D(R,O)同时描述机械手和物体的相对位置关系,可以在预测时同时输出机械手的状态和形态。这样一来,抓取速度快了很多。以前的方法可能要十几秒甚至一分钟以上,而我们可以在0.65秒内直接生成一个高自由度的抓取方案。
我们在感知上也做了提升,尤其是处理部分遮挡的物体时,算法鲁棒性更强。
甲子光年:评审给出的核心贡献理由是什么?
邵林:原文是“for contributions to learning-based representations for generalizable dexterous grasping across diverse objects and robots.”(谨此表彰其在开发基于学习的表征方法上的贡献,该方法实现了跨多样物体与机器人的泛化性灵巧抓取。)
甲子光年:回想下,目前为止,你的研究覆盖了具身智能的哪些领域?
邵林:机器人操作本身就是一个复杂系统。它不仅涉及机器人学习,还包括硬件设计、触觉感知与仿真、机器学习算法等多个方面。我在这个领域已经做了十多年,在这些方向上都有比较充分的积累,也和别人合作过灵巧手开发。
甲子光年:你一直深扎操作领域,那在你看来当前制约具身操作研究进一步发展的“症结”在哪里?
邵林:我觉得核心问题在于,大家没有真正从本质逻辑出发去思考:我们最终的目标是什么,以及怎样的设计路线才能够到达那个目标。
甲子光年:能否展开说说?是认为大家还没想清楚吗?
邵林:倒不是说完全没想清楚,而是这件事还没有被充分论证,没有被系统性地回答。至少我看到的情况是这样。
关于“症结”,其实每个人看法都不一样。在我看来,最大的挑战是:如何在具身智能行业发展的特定条件下,去设计和打造具体的具身大模型。这其中包括硬件的设计、感知系统的构建(如视觉和触觉信号)、数据来源的多样性,以及不同数据来源下如何去设计AI模型。
从模型到感知,再从硬件到数据,所有的问题,都需要用更本质的视角重新思考:究竟什么样的设计逻辑能够把这些环节有效整合,从而真正走向我们想达到的目标。
甲子光年:你刚才提到了灵巧手。我们在2025世界机器人大会上发现,许多公司在演示叠衣服或完成简单家务时,仍然采用夹子来操作。而Figure 2近期展示了机器人直接使用灵巧手完成叠衣服和将衣服放入洗衣机。夹子和灵巧手对比,有什么优劣势?
邵林:夹子(two-finger gripper)本身就是末端执行器的一种。它的优势是结构简单,适合做pick and place(抓取与放置)这样的基础任务,如果只是用灵巧手的抓取做简单的pick-and-place,其实有点浪费那么多自由度。而更复杂的manipulation(操作)就需要更多自由度。不过自由度不是越多越好,它一定有一个平衡点。
从更通用的角度看,灵巧手的设计潜力更大。毕竟机器人要融入人类社会,而人类社会里的工业品和家居用品,大多在设计时都考虑了人手的形状和力量。如果末端执行器更接近人手,使用这些物体时限制会更小。
甲子光年:今年具身智能概念爆发,多家具身智能企业都获得了大额融资,估值迅速攀升。融资和估值的增长似乎快于具身智能真正的落地速度。你怎么看这种现象?
邵林:对一家公司来说,能否真正完成落地是非常重要的。
落地其实反映了一系列问题,包括公司的技术栈是否扎实,能否和实际需求结合,能否实现大规模泛化和快速部署。这些都会体现公司的技术积累、研发进展、运作效率和团队协作。行业需要花更多时间在落地场景上。
同时也要看到,具身智能不是快餐式的行业,需要足够的耐心。企业要在短期落地和长期发展之间找到平衡,不能只看一个月能不能落地,也不能拖到十年都没结果,关键是展现出决心和投入。
甲子光年:现在具身智能落地出现一些细分场景,比如零售场景、工业场景、康养场景。在你看来,哪些最有前景?
邵林:我不能给出一个绝对的答案,但落地场景要满足三个条件:一是在该场景下具身智能技术和传统自动化技术有足够的差异度,二是该技术能否在短时间内稳定运行,三是能否带来足够的商业利润。这三个点是判断落地潜力的关键。
甲子光年:作为教授和创业者,对于在AI时代想要进入机器人领域的年轻人,你有什么建议吗?
邵林:我的建议是:年轻人要尽可能拓展自己的知识体系。具身智能是连接虚拟与现实的重要桥梁,也是人工智能未来极为关键的发展方向。一旦相关技术真正成熟,将会深刻改变社会形态和个人的生活方式。但与此同时,这一领域所需要的技术和知识既要足够深,也要足够广。
机器人系统本身极其复杂,它融合了电子硬件、传感器、人工智能、大模型以及人机交互等多个方面。如果想在这一领域脱颖而出,必须具备全局化、体系化的思维。不一定要在每个方向都成为专家,但至少要理解并掌握不同领域的基本原理,并积累一定的实践经验。这样在真正做决策时,才能从多个维度和视角进行综合判断,形成系统性的理解。这也是为什么我强调,年轻人要努力把自己培养成既有广度、又有深度的“full-stack roboticist(全栈机器人学家)”。
(封面及文中图片、视频由受访者提供)