interview AI 21% medium 2026-06-17

Hardware Exclusive Interview | Luo Jianlan: The True Scaling Law for Robots Occurs in Real Deployment Loops

硬氪专访 | 罗剑岚:机器人真正的Scaling Law,发生在真实部署闭环里

邱晓芬 36kr
This interview with Luo Jianlan, associate professor at Shanghai Chuangzhi Institute and chief scientist at Zhiyuan Robot, argues that embodied intelligence cannot simply replicate the scaling law of large language models, and emphasizes that real breakthroughs require closed-loop deployment in physical environments.
Document Text 6,388 characters
作者 | 邱晓芬<br> 编辑 | 袁斯来<br> 过去半年,国内具身智能赛道经历了一场静悄悄的重心转移:聚光灯从硬件本体的“自由度竞赛”,逐渐移向决定机器人智能上限的深水区。<br> 只是,当行业反复讨论“机器人能否通过暴力堆数据复刻大语言模型 ScalingLaw”时,上海创智学院副教授、智元机器人首席科学家罗剑岚,给出了一个并不随大流的判断:具身智能不能简单照搬大语言模型的发展路径。<br> 罗剑岚的表达风格极具辨识度。他习惯在中英文专业术语之间快速切换,逻辑推进密集,很少给出模糊的折中答案。<br> 相比停留在“数据、模型、Infra哪个更重要”的单点争论上,他更倾向于直接指出问题本身:当前具身智能的核心矛盾,不是某一个环节的单独突破,而是这些环节能否在真实部署中形成闭环。<br> 这种判断来自他横跨学术研究与产业落地的经历。作为曾经的伯克利博士,他师从具身智能领域奠基性人物Sergey Levine(谢尔盖·列文)。毕业后,他曾任Google X与DeepMind研究科学家,14个月前,他回国并加入创智学院和「智元机器人」。<br> 在他看来,目前行业里相当一部分所谓“具身基础模型”的训练方式,并不是真正意义上的预训练,更接近中训练(Mid-training)或微调(Fine-tuning)。<br> 原因也很现实:当前高质量真机交互数据仍然稀缺,尤其是覆盖多场景、多任务、多本体,并且包含失败、纠错和长尾交互的数据,远不足以支撑类似大语言模型那样的大规模预训练。<br> 这也造成了一个现象:在真机交互数据不足的阶段,行业里不少团队会选择在已有开源模型底座之上,叠加高质量遥操数据,在特定任务上进行对齐或微调。<br> 这种路径在短期内可以快速提升实验室任务表现,但它并不等同于真正意义上的具身基础模型预训练。模型在离线数据上的Loss(损失)曲线变好,更多说明它更好地拟合了已有数据;至于能否迁移到新的物理场景、处理长尾扰动和失败恢复,仍需要通过真实部署来验证。<br> (作者注:Loss是“模型每次猜错了多少的分数”,Loss曲线就是把这分数按时间画出来。Loss曲线往下走,通常表明模型在训练数据上拟合得更好;但在机器人领域,它并不必然等同于真实场景中的部署成功率提升。)<br> 也正因此,罗剑岚认为,具身智能不能盲目照搬GPT式的Scaling Law。<br> 具体而言,在大语言模型中,预训练Loss与模型能力之间存在相对稳定、可预测的统计关系。<br> 但在机器人领域,离线Loss下降并不必然对应真实部署成功率提升——机器人面对的是开放物理世界,涉及接触、扰动、长尾场景、硬件差异和任务反馈,模型“记住”了数据,并不代表它能真正“驾驭”现实。<br> 因此,具身智能真正的突破不只是堆参数或堆数据,而是应该部署一个闭环——直到机器人部署规模扩大后,新场景适配成本能够持续下降,数据回流能够稳定提升模型能力,这才是物理世界中的“Scaling Law时刻”。<br> 在这一逻辑框架下,回国后罗剑岚,核心任务正是构建一个可规模化演进的具身智能闭环。<br> 他将这一年的工作重点凝练为三个技术支点:<br> 首先是SOP(可扩展在线后训练)。SOP面向的是大规模机器人在线后训练所需的基础设施问题,包括低延迟数据回流、云端计算、训练调度和模型更新。它的价值不只是一个算法模块,而是验证机器人数据能否从部署现场高效进入训练闭环。<br> 其次是LWD(部署中学习)。它试图打破过去“训练—部署”的割裂状态,让机器人不再是出厂即定型的产品,而是在便利店、商超等真实场景中持续进化的系统。当机器人遇到未见过的货架形态、商品摆放或操作扰动时,系统能够通过真实交互不断积累数据,并将这些经验转化为后续模型改进。<br> 最后是近期由上海创智学院和「智元机器人」联合发布的τ0-WM世界模型。<br> τ0-WM并不把视频生成当作最终目的,而是把视频预测作为学习物理动力学、评估动作后果的一种手段。更具体地说,它希望成为一个动作条件的物理推演器:在机器人真正执行动作之前,先在模型内部比较不同候选动作可能带来的未来结果,从而帮助系统选择更可靠的动作。<br> 举个例子,面对桌边的鸡蛋,普通VLA可能直接输出抓取动作;而动作条件世界模型可以先比较几条候选轨迹的未来后果,避免选择会把鸡蛋扫落桌面的动作。<br> 在罗剑岚看来,接下来具身智能真正的决胜点,不是硬件,更不是数据、模型、Infra单点能力的强弱,而是它们能不能彼此形成闭环——这就像是木桶的不同木板,任何一个关键环节短板过短,系统能力都难以真正释放。<br> “谁能率先在便利店、商超、仓储等半结构化场景中,跑通‘部署—数据—迭代’的数据飞轮,谁就真正具备了大规模商业化的可能性”,他表示。<br> 而关键的时间节点,或许正是未来的12到18个月。<br> 近期,硬氪与罗剑岚聊了聊。以下是采访实录,略经摘编。<br> 真正的具身预训练,门槛比想象中更高<br> 硬氪:你为什么认为现在国内具身智能行业里,真正做基础模型训练的团队很少?<br> 罗剑岚:类比大语言模型的发展阶段,我觉得现在机器人领域有能力做具身基础模型预训练的团队很少,大家做的更多是fine-tuning(微调)或“中训练”(Mid-training)。<br> 甚至很多中训练也不算夯实。现在行业里很多所谓“机器人基础模型”,更接近在已有开源底座上的任务适配或中训练,还没有真正进入大规模、异构、真实交互数据驱动的预训练阶段。<br> 行业里甚至有一个半开玩笑的说法:“paper上,PI(Physical Intelligence)从来没赢过;现实里,PI从来没输过。”<br> 这句话背后反映的其实是一个问题:机器人模型不能只看论文指标,最终还是要看真实世界里的部署效果。<br> 回顾LLM的路径,预训练模型本身的输出其实充满噪声,需要通过中训练进行高质量对齐,再通过后训练进一步激活特定能力。<br> 真正的机器人基础模型预训练,也应该像LLM一样,吸纳极其广泛、甚至包含噪声的数据。只不过机器人领域的数据不是静态文本,而是真实世界中的交互、失败、纠错、恢复和长尾场景。<br> 硬氪:预训练、中训练、后训练,在数据和架构上有什么区别?<br> 罗剑岚:这是训练的三个阶段,核心差异是数据和训练算法。<br> 预训练是用极广泛的数据训练模型,什么数据类型都覆盖一点;<br> 中训练是用高质量的机器人遥操示范数据,对齐任务需求;<br> 后训练是针对特定能力做优化,比如大语言模型中的推理能力,往往需要通过后训练、强化学习或高质量任务数据进一步激活和对齐。<br> 硬氪:那接下来国内公司在补齐预训练和后训练时,可能会遇到什么挑战?<br> 罗剑岚:核心是数据,还有真实场景部署的问题。整套系统从数据到Infra到模型,是环环相扣的,没有哪一个是绝对更重要的,这个是木桶效应。<br> 我认为,真实世界的数据必须作为底座。这就像不同年龄读同一本书:3岁看不懂,20岁能理解情节,40岁能看到人性。<br> 如果基础模型越强,吸收异构数据、迁移到新任务的效率就会显著提高;但是如果没有真实数据打底,单纯依赖仿真或视频数据,模型的上限会被限制住。<br> 硬氪:现在很多公司都在说机器人的“GPT时刻”。你认为大概要堆到什么量级的数据,才能真正实现泛化?<br> 罗剑岚:我反对盲目对标GPT式的Scaling Law。<br> 如果限定在高质量、真实交互、可用于闭环部署的机器人数据上,当前行业的数据规模仍然远远不足。很多所谓“百万级”“千万级”的数据说法,背后口径并不统一:有的是视频,有的是轨迹,有的是仿真,有的是遥操,有的是单一任务重复采集。机器人数据到底怎样计量,行业本身还没有完全收敛。<br> 大语言模型的Scaling Law建立在预训练Loss与模型能力之间相对稳定、可预测的统计关系上;但这一规律在具身智能领域并不自动成立。<br> 机器人的训练Loss下降,仅代表模型更好地拟合了静态数据,并不等同于其在物理世界中的部署成功率提升。物理交互的复杂性意味着,模型“记住”了数据,并不代表它能“驾驭”现实。<br> 因此,具身智能的金标准,绝非数据规模或Loss值,而是真实场景的部署效能。真正的突破点在于,当我们观察到随着部署台数增加,新场景适配成本持续下降,模型迭代效率持续提升——这才是数据飞轮开始转动的临界点。<br> 遗憾的是,学界与业界至今无法精确计算这一临界点对应的数据量级。<br> 机器人需要一个闭环<br> 硬氪:你在一年多以前回国,观察下来,国内外具身智能机器人业态最大的差别是什么?<br> 罗剑岚:机器人是一个全栈系统,需要硬件、模型、智能,也需要靠真实部署形成数据闭环,不能等某一项技术完全收敛之后再做另一项。<br> 国内的优势是产业链、供应链、工程能力和人才密度。现在全球都还没真正突破的是机器人的“大脑”。我们应该把这些优势结合起来,快速跑通闭环,发挥好国内原有的硬件、场景和部署优势,而不是只卷本体。<br> 硬氪:你回国之后做了很多工作,比如LWD、SOP,还有前段时间发布的世界模型。这些研究成果各自的作用是什么?这个完整闭环主要由哪几个部分组成?<br> 罗剑岚:从底层往上捋,最底层是大量部署在真实场景中的机器人硬件,也就是Fleet learning(机器人集群协同学习)。你首先要有一支足够规模的机器人“舰队”。<br> 再往上是基础设施层,包括云端实时计算、数据回流、通信、训练加速、推理加速这些软硬件云一体的Infra。我们之前发布的SOP,其实就是这个Infra的概念验证,证明这套链路可以跑通。<br> 再往上是算法层,包括两部分:一部分是预训练,另一部分是后训练。我们几个月前发布的LWD,解决的就是机器人后训练、自我进化的问题。后面我们也会继续推进自己的预训练基础模型。<br> 我们整体闭环的逻辑是:真实部署不是训练的终点,而是智能继续演化的起点。它可以形成一个正向飞轮:部署更多机器人,产生更多数据,训练出更好的模型,然后部署更多机器人。<br> 硬氪:理想中的数据飞轮效果是什么样的?<br> 罗剑岚:就是越部署越强的正向循环:模型变强,部署更多机器人;部署更多机器人,回流更多数据;回流更多数据,再训练出更强的模型。<br> 比如,在便利店、商超这类半结构化场景中,部署前20家的时候,可能需要收集大量交互数据;但随着部署数量增加,新场景适配成本会显著下降。理想情况下,部署到第100家时,新场景适配所需的数据量会变得很少,甚至接近开箱即用。<br> 硬氪:打通这个闭环的意义是什么?<br> 罗剑岚:现在的硬件虽然还不完美,但对于构建特定任务的闭环来说,硬件已经基本够用,并未成为核心瓶颈。真正的短板在于数据闭环——也就是从模型、数据到整个链路的持续迭代能力。<br> 目前全球有远见的CEO都在关注具身智能,大家都在等那个“第一个信号”出现。一旦有人在半开放场景中跑通商业闭环,证明数据飞轮能转起来,资本和产业资源就会迅速向这个方向集中。<br> 这正是创业公司的机会。大厂们受制于OKR和既有护城河,转身相对缓慢;创业公司的优势在于速度。我们不需要颠覆所有场景。<br> 未来12到18个月,如果有团队能在便利店、商超、仓储等半结构化场景中率先跑通“部署—数据—迭代”的正向循环,它就会建立非常强的先发优势。<br> 世界模型不是生成视频,而是预测动作后果<br> 硬氪:现在世界模型很热,你对此的理解是什么?<br> 罗剑岚:这个话题每两年就会被拿出来讨论一次,从2017、2018年就开始了。之前主要是技术圈内部讨论,现在AI的社会关注度很高,所以世界模型也出圈了。<br> 对于世界模型,我更关注的是action-conditioned predictive model,也就是动作条件的预测模型,或者可以理解成前向动力学模型——在给定当前状态和动作的条件下,预测执行这个动作后的未来状态、奖励或者其他utility的变化。它的核心,是能在不真正执行动作的情况下,评估动作对未来世界状态的影响。<br> 举个例子,早上煮鸡蛋,我脑子里会预判,用小火煮要很久,不如用大火。这个过程并不需要我真的先把每个动作执行一遍,而是在脑子里判断方案好坏。<br> 硬氪:为什么现在世界模型的技术路线这么不收敛?<br> 罗剑岚:现在世界模型最大的问题是定义过宽。很多人口中的世界模型,其实更接近video prediction model,也就是预测画面会怎么变化。但机器人真正需要的,不只是未来画面,而是动作会如何改变后续世界状态。有了这个,才能做规划和动作评估。<br> 如果一个模型只是生成未来画面,却不能用来评估动作对世界状态的影响,那它对机器人决策的价值就很有限。对我来说,更重要的是action-conditioned predictive model:给定当前状态和候选动作,预测这个动作会把世界带到什么状态。<br> 现在很多纯做世界模型的公司,是把世界模型当作最终目标。但对我来说,世界模型是实现预训练目标的工具,两者逻辑是反的。<br> 硬氪:那你们借用世界模型这个工具,希望实现什么目标?<br> 罗剑岚:目标就是预测动力学,能在不执行动作的情况下评估动作好坏,提升规划准确性,让整体系统效果变好。<br> 硬氪:最近行业里有声音说VLA已死,你怎么看?在世界模型价值得到关注之后,两者之间的协同是什么样的?<br> 罗剑岚:VLA里面,V是Vision(视觉),L是Language(语言),A是Action(动作)。其中,视觉与动作的必要性已经形成共识,核心争议在于语言是否必需。<br> 我认为,语言不可或缺。它是复杂任务拆解、长程推理与上下文衔接最自然的接口,VLM是当前处理这类高层规划的最优载体。<br> 当前VLA将一切对齐到语言空间,采用“离散预训练+连续动作头”的模式,或许并非终局;但我认为,直接断言“VLA已死”过于极端。机器人作为复杂决策系统,既需要底层动作精度,也需要高层规划能力。<br> 现阶段数据量还远不足以否定VLA的价值。虽然世界模型在时序动力学建模和动作预测上有优势,但在language grounding(语言锚定)和复杂逻辑处理上仍有短板。例如“煮鸡蛋”这类长程任务,世界模型本身尚难完成完整的多步拆解与执行。<br> 未来真正的突破在于VLA与世界模型的融合:用VLA处理语言驱动的宏观规划,用世界模型保障物理执行的精准度。<br> 硬氪:所以你认为,并不需要那么多数据,也能实现泛化?<br> 罗剑岚:数据重要,和需要多少数据,是两回事。<br> 现在行业里有一个假设是:“数据不够所以不work,所以需要更多数据。”但也有另一种可能——<br> 比如,全球有1亿个家庭,或许我们并不需要收集8000万个家庭的数据,才能泛化到剩下的2000万个家庭;可能只需要1万个家庭的数据,再结合其他方法,就能泛化到剩下的9000多万个家庭。<br> 现在没人能证明哪种假设是对的,只能一边做一边验证。做科研就是要不断提出假设,以最小成本试错,找到梯度下降的方向,而不是凭空臆想结论。<br> 硬氪:现在在数据侧,第一视角这类数据也很火。这是过渡方案,还是长期重要的组成部分?<br> 罗剑岚:要看底座模型是什么。<br> 如果基础模型不是从0开始训练,而是基于现有的VLM、video model,那这些模型已经吸收了这类数据的特征,所以第一视角数据是有用的;但如果从0开始训练具身基础模型,核心还是真机部署数据。<br> 现在因为机器人领域处于数据荒漠阶段,有任何数据都会比没有数据好。但在小数据规模前提下得出的结论,到大数据阶段很可能不成立。<br> 这就像自动驾驶初期,大家会讨论仿真数据、Google街景、行车记录仪数据等各种替代数据来源。那时候没人能拿到足够多的真车数据,所以这些数据都有价值。但当真实车辆数据多到要专门建设大规模存储和处理基础设施时,其他替代数据的相对重要性就会被重新评估。<br> 现在机器人领域的情况,和当年自动驾驶初期很像。大家都在提各种替代数据方案,本质是因为真机数据还不够。等真机部署数据足够多之后,这些方案的价值也会被重新评估。<br> 首页图源|企业供图<br> 排版|范馨雅<br> 欢迎交流
Topics
embodied intelligence robotics artificial intelligence
Metadata
Publisher 邱晓芬
Site 36kr
Date 2026-06-17
Category report
Policy Area 具身智能
CMS Category 媒体报道