AI 27%
low
2026-06-17
Inverse Matrix Completes Over $100 Million Funding Round; Founder: Window for General World Foundation Model Has Narrowed to 18 Months
「逆矩阵」完成超亿美元融资,创始人:通用世界基座模型窗口期已压至18个月
王毓婵
36kr
This is an exclusive media report detailing the completion of a super-sized seed++ round of over $100 million by world model company Inverse Matrix Technology (Physis), along with an interview with founder Chen Boyuan discussing the company's technology roadmap, organizational structure, and the industry consensus that the window for general world foundation models has compressed from three years to 18 months.
Document Text
6,497 characters
文|王毓婵<br>
编辑|张雨忻<br>
2026 年以来,一级市场对世界模型的抢筹进入白热化阶段。资金不再像早期那样“广撒网”,而是高度向头部玩家集中。这其中,逆矩阵科技(Physis)就接连完成了多轮融资。<br>
36氪智能涌现独家据悉,世界模型公司逆矩阵科技已完成超亿美元种子++轮融资;此前的 3 月,刚完成了超千万美元首轮融资。本轮由经纬创投、五源资本、光合创投等机构共同参与,并获蚂蚁集团战略投资,老股东高瓴创投、燕缘创投持续加注。<br>
在本轮融资落定前后,逆矩阵发布了通用世界基座模型Physis-v0.1,并将其概括为“One For All”的通用物理世界应用。该模型主打物理正确、长程一致、动作因果、通用泛化四项能力,一次预训练即可服务具身智能、工业仿真、游戏物理、科学预测等多类场景。<br>
逆矩阵计划于 2026 年底发布旗舰模型,过程中将放出开源切片和技术报告。本轮资金将主要用于通用世界基座模型的预训练研发、规模化训练体系建设。<br>
团队由北大青年学者陈博远、吉嘉铭联合创立,一半是青年学者(含奥赛金牌、省市状元与多位顶会论文作者),一半是来自一线科技企业的资深工程人才。他们组成了一个 AI-native 的扁平化团队,没有层级汇报与季度指标,靠技术判断而非行政命令对齐方向;信奉自由探索、第一性原理与长期主义。<br>
智能涌现在新一轮融资敲定之际,独家采访了陈博远。他回答了关于组织架构、融资节奏、技术路线、行业判断和场景落地等多个问题。<br>
“行业内目前的共识是,18~24个月内,世界基座模型能力会出现标志性的阶跃,36个月内,能在多个真实场景完成实际应用落地。”陈博远说。“这与语言模型从 GPT-3 到 ChatGPT 的路径高度吻合。”<br>
以下是智能涌现与陈博远的对话实录:<br>
通用世界基座模型的窗口期正在从三年压缩到十八个月<br>
Q1:恭喜逆矩阵完成新一轮超亿美元量级的融资。距离上一轮融资仅仅过去不到两个月,为什么能保持这么快的融资节奏?<br>
陈博远:这背后反映了投资人对 AI 发展第三次范式跃迁的押注。<br>
过去十年,AI 经历了语言模型(预测下一个词)和视觉生成模型(预测下一帧)两次跃迁,分别催生了平台级公司。现在的第三次跃迁是由 AI 从虚拟世界走向物理世界带来的,核心是面向物理空间“预测下一个物理状态”。<br>
这套“给定当前状态与动作,预测世界如何演化”的范式,曾在 AlphaGo、机器人控制等子问题中出现过,如今正在收敛为同一套解法框架。但物理世界与虚拟世界的根本区别在于,物理世界是“部分可观测”的,模型不能只停留在“看到什么做什么”,必须理解底层的物理约束。<br>
投资人愿意快速跟进并追加投资,主要基于两点判断:<br>
一是“底层统一建模物理规律,上层按需适配不同场景”的基座模型路径正在成为行业共识;<br>
二是通用世界基座模型的窗口期正在从三年压缩到十八个月,做通用预训练的团队会拥有更大的空间。一个领先的通用基座具有数据scaling和算法有效性,会构成难以被追赶的壁垒。<br>
Q2:在融资过程中,投资人问得最多的问题是什么?大家对技术走向落地的时间周期有怎样的共识?<br>
陈博远:问得最密集的是:“凭什么相信通用世界基座模型能做成?”以及“团队是否在坚定地做基座模型?”<br>
在我们看来,能不能称之为基座模型,关键在于是否真正从物理预测这个目标出发去构建。于是我们从零开始解决物理预测目标,自研底层架构,并在训练分布外看到了合理的物理推演曙光。<br>
逆矩阵的内部实验表明,随着数据和参数规模增加,状态预测误差持续下降,呈现出类似大语言模型的指数级 Scaling 潜力,而未出现垂类模型的饱和拐点。<br>
关于落地周期,共识是 18~24个月内基座模型能力会出现标志性的阶跃,并在真实需求上取得高分;36个月内能在多个真实场景完成实际应用落地。这与语言模型从 GPT-3 到 ChatGPT 的路径高度吻合。届时,各个垂类场景将直接成为基座模型 API 的调用者,形成类似 AWS 与 SaaS 的关系。<br>
Q3:为什么没有在当下引入产业基金投资?<br>
陈博远:现阶段我们最需要的是把"弹药"集中到一个方向,去攻克通用世界基座模型的研发与算力门槛。这是一件需要长期、专注投入的事。<br>
我们现在不急于做商业化,这是我们在这个阶段做出的价值判断。对一家做通用基座的公司来说,过早把模型绑定到某个垂直场景去变现,看上去摘到了眼前的果实,实际上是给自己画了一道边界:一旦围绕单一场景去采数据、调模型、做交付,就会逐渐退化成"一个场景、一套模型"。<br>
我们相信物理规律的通用解是存在的,重力、碰撞、摩擦等等在任何场景里都是同一套规律。基座的价值在于跨场景复用。所以我们不急于变现,并不意味着不重视商业化。我们看重商业化,但现阶段更愿意先把基座的物理理解能力打扎实;商业化的节奏,会随着技术成熟和真实产业需求自然展开。<br>
能力先于商业动作,组织风格保持克制。投资人最终愿意为可重复、可扩张的能力买单,而把这个能力打扎实,是我们当下唯一该做的事。<br>
Q4:你也是智源行为世界模型创新中心的负责人,逆矩阵和智源研究院之间有关联吗?<br>
陈博远:智源研究院一直定位在 AI 领域从 0 到 1 的原始创新,逆矩阵本身更加聚焦于通用世界基座模型的底层探索和商业技术开发。两者都在逼近同一个目标——让人工智能真正理解物理规律。<br>
最关键的分水岭:真正具备基座模型潜力<br>
Q5:世界模型会有自己的 Scaling Law 吗?<br>
陈博远:物理世界一定有自己的 Scaling Law,但绝不能沿用语言模型或视频生成的 Scaling Law。 直接复制存在三个失效原因:<br>
数据受限:物理交互数据无法像互联网文本那样无限爬取,采集与筛选成本极高。<br>
像素不等于物理:视频中 90% 的信息,如纹理、光照、运动模糊等,是与物理规律无关的视觉冗余。<br>
相关性不等于因果性:纯观察只能学到统计上的相关性,而物理的核心是因果性,必须有“动作”的介入才能区分规律与巧合。 因此,我们必须在“物理隐空间”而非像素空间进行 Scale up。这包含四个关键技术判断:<br>
压缩:将世界编码为包含力、速度等抽象表征的高效物理隐空间,剥离视觉冗余。<br>
因果性:在隐空间原生引入动作干预,让模型理解动作导致的物理状态转移。<br>
验证:纯生成式的路径只有生成能力、缺少验证能力,容易出现穿透、失重这类“物理幻觉”。为此我们引入强化学习,如 RLVR 可验证信号奖励,通过明确的物理约束构建闭环对齐信号。<br>
通用:最终的隐空间必须能服务于不同场景(One for All),因为物理规律在不同场景中是同一的。<br>
Q6:在模型训练中,具体是怎么设计机制让模型从“主动干预”中学习的?为了防止模型在面对未见环境时发生物理推演崩溃,引入的具体奖惩机制又是怎样的?<br>
陈博远:物理世界规律产生于交互,而非被动感知。<br>
因此,我们从零设计了模型架构,在底层物理隐空间原生引入动作。这不像传统的视频生成模型通过嫁接引擎来响应控制,就好比不能在没有方向盘的车上焊一个方向盘,然后宣称它是可操控的。<br>
我们将动作,无论是关节运动量,还是移动残差向量,作为条件信号注入,去调制下一个物理状态的预测过程。这样,每一条数据的密度都翻倍了,模型学到的不再是“世界长什么样”,而是“采取何种动作,导致了什么转移”,从而实现从相关性到因果性的跃迁。<br>
物理天然是可验证的。例如,物体不会凭空消失,赛车不能穿墙,流体不能像冰块一样倒出。因此,我们在强化学习中构建了自动化的物理验证沙盒。<br>
世界模型的 W0–W5 能力分级 逆矩阵制图<br>
Q7:逆矩阵提到的“W0-W5世界模型能力分级”中,你们目前处于哪一层?当“一个机器人能顺利打鸡蛋”时,模型属于第几层?<br>
陈博远:这分类对标了自动驾驶的 L0-L5。当前大部分模型处于 W0-W1,能响应动作并生成流畅视频,<br>
逆矩阵正在攻克 W1 到 W2 的跃迁,这是最关键的分水岭。 W2 代表模型真正具备基座模型潜力,解决了“物理真实性”问题,理解了因果关系。 如果仅仅为了让机器人“打鸡蛋”,垂类训练也能做到极好的控制,但它可能只懂打鸡蛋的局部场景,不懂通用物理。<br>
衡量基座模型是否足够好的核心在于“动作跟随性(Action Following)”和泛化能力。就像基座模型不仅会打鸡蛋,换到柔性材料场景也能玩溜溜球。大模型通过强化学习实现了通用数学代码推理的跃迁,世界模型也需要在明确的物理验证信号下学习,突破为通用的指数级跃迁。<br>
Q8:在这个模型攀登过程中,最核心的瓶颈是算力、数据还是算法?<br>
陈博远:我觉得都非常重要。但是如果只能选一个的话,我认为是在数据和算法背后反映的“范式”。因为他们三者其实是统一于底层范式的变革。<br>
数据层面:我们构建了数据金字塔。第一层是强物理交互的真实视频(学习世界状态);第二层是第一人称(Ego-centric)视频与游戏引擎数据(学习动作导致的转移);第三层则是极其稀缺的关键物理突变数据(如玻璃破碎、流体断裂),我们通过自建数据生产闭环来生产这部分高价值数据。<br>
算力层面:关键在于算力效率。在物理隐空间进行 Scaling,确保相同算力下学习到的都是有效物理信号,而非视觉噪音。<br>
算法层面:强化学习提供了无限供给的物理教师,将自动化验证引入模型。<br>
Q9:面对目前 GPU 昂贵且资源紧缺,同时真实物理交互数据又极度稀缺且昂贵的现实困境,逆矩阵是如何解决的?<br>
陈博远:主要通过数据合作与重构数据获取范式两个方面来解决。<br>
第一,在数据合作层面,我们与一些公司建立了上下游合作关系,这为模型训练提供了大量真机数据支持,构成了很好的基石。<br>
第二,相比于单纯的数据量,更关键的是“我们要学习什么样的数据”。互联网每天产生海量的视频,YouTube 每天就能产生数十万小时内容,但其中可能只有5%包含真实的物理交互。对于学习物理来说,我们需要的不是那95%的视觉冗余,而是强物理动态属性的稀缺数据。 因此,我们构建了数据金字塔:<br>
L1层:通过筛选高质量的真实世界视频学习物理状态。<br>
L2层:通过第一人称视角(Ego-centric)视频与仿真引擎数据,学习动作导致的状态转移。<br>
L3层:通过自建数据生产闭环,在仿真环境中构建极端边缘状态,例如处于倒塌边缘的杯子,并主动筛选强物理突变的数据,如玻璃破碎、汽车爆炸等。这部分稀疏且突变的规律数据对于模型真正掌握真实物理规律具有极高的性价比,是迈向物理正确的最关键一环。<br>
场景落地:先通用再适配<br>
Q10:今年底你们计划发布的旗舰模型,会首先切入具身智能、工业仿真还是游戏物理等垂直场景?<br>
陈博远:我们的定位是“先通用再适配”。底层同一个基座,通过拼接不同的可插拔解码器,就能服务于各个场景,比如视频解码器用于游戏渲染,运动解码器用于工业孪生,动作解码器用于具身智能控制。<br>
我们在一年之内,并不着急去做世界模型 for 具身/for 工业场景/for 游戏,因为在真实物理世界里面,它们其实是共通的,过早聚焦垂类容易导致过拟合。<br>
旗舰模型成熟后,我们会优先在具身智能、工业仿真等场景做验证与落地。年底发布的模型,重点是向全球开发者展示其在未见过的物理场景中的预测能力,成为物理世界基础设施的提供者。<br>
Q11:在 W2 和 W3 阶段,世界模型相比 Unity、Unreal 等传统引擎,能带来多大提升?是颠覆者还是互补者?<br>
陈博远:短期是互补,长期是颠覆。 传统引擎依赖手写规则,对刚体预测较准,但在柔性物体(流体断裂、形变)等复杂交互上是盲区。 世界模型通过交互学习真实的物理因果性,具有三大优势:<br>
天然支持复杂物理交互,不依赖手写规则;<br>
极强的泛化性,传统引擎换场景需重新调参,而基座模型一句话即可生成千万级具有真实物理属性的场景;<br>
极高的效率,状态预测是秒级的。当模型迈向 W3,机器将从“执行规则”变为“理解规律、自主推演”。<br>
Q12:您自己平时玩游戏吗?有哪些游戏在物理交互上做得让您印象深刻?像《塞尔达》中玩家利用风扇和瀑布涌现出的水雾效果,未来是否可以不由程序员手写代码,而是由大模型自主推演完成?<br>
陈博远:像《荒野大镖客》、《黑神话:悟空》这类开放世界与动作游戏,它们的视觉渲染与底层物理交互都做得非常逼真。<br>
但这背后的代价是极高的,逼真效果高度依赖于大量手写的物理规则和材质变化的响应代码。这恰恰反映了世界模型的颠覆性价值。 如果引入了真正理解物理规律的通用基座模型,像《塞尔达》里这种复杂元素的叠加交互效果将能够自然涌现,不再需要程序员预先逐条编写规则。<br>
基座模型代替手写代码实现机器自主推演,再结合三维渲染达到视觉效果,在底层上能实现对现有物理引擎的巨大互补甚至颠覆。<br>
在前沿探索性极强的领域,不能再套用传统的公司组织架构<br>
Q13:公司为什么选择搭建一个没有层级汇报和季度指标、高度扁平化的 AI-native 团队?这种 Neo lab 的研究氛围,在拿了高额融资之后,如何确保团队的执行力和交付效率?<br>
陈博远:这可以从三个递进的层面来回答:AI-Native、扁平化与高效机制。<br>
首先,AI-Native 意味着我们真正在用 AI 重塑工作流。 我们的每一位员工,都配备了代码智能体(Agent)。新员工入职的第一件事就是学会使用 AI 提效工具。现在一个工程师配合几个 Agent 就能完成以往一个基础技术团队的工作量。更重要的是,同事之间可以互相访问对方的 Agent 来了解工作进展,降低了信息同步和共享的沟通摩擦。<br>
其次,关于无 KPI 与高度扁平化。 通用世界基座模型是一个前沿探索性极强的领域,最重要的技术突破往往来自意想不到的方向。我们非常欣赏早期的 DeepMind 和 OpenAI,那种真正的底层创新往往只来自于两三个人的核心灵感,随后再将其扩展。在这种阶段,强加的 KPI 和部门墙反而会成为创新的沉重负担。<br>
我们依靠这三点保持高效:方向上大家高度对齐,每个人都清楚公司在做什么、为什么做,不用谁来催;信息几乎没有衰减,想找个不同背景的同事 challenge 一下想法,随时就能聊起来;最后是认结果,谁做了什么贡献都摆在明面上,用验证结果说话。<br>
Q14:一个由青年天才与资深工程人才组成的团队,是什么样的工作氛围?在直觉和经验不同时,大家是如何达成平衡的?<br>
陈博远:我们团队就像一艘探索无人区的“快艇”,极高的人才密度和跨界背景是我们最核心的特征。 团队里既有做视觉生成、强化学习、3D仿真的,也有来自大厂的核心底层架构(Infra)专家,以及年轻的的 IOI/ICPC 奥赛金牌得主。<br>
过往的经验是我们的垫脚石,但我们要防止它成为技术突破的绊脚石。<br>
Q15:拿完融资之后,目前这种“精英小团队”组织形态会改变吗?AI人才现在极其抢手,逆矩阵如何面对大厂的竞争并留住这些顶尖人才?<br>
陈博远:面对大厂在资金、算力上的竞争,我们的定位和他们不在同一层——大厂更多是在应用层针对特定本体做优化,而我们做的是底层通用基础设施。大厂就像一艘远洋货轮,体量极大但很难轻易转向;而我们是一艘快艇,能更快地跑出从 0 到 1 的原始探索,这本身就需要初创的精英团队形态和极高的人才密度。 关于留住顶尖人才,其实不太靠“说服”,更多是互相吸引。一是这里足够自由;二是大家有共同的理想;三是从前沿研究到产业落地的链路在这里是完整的,研究能直接变成模型表现,最终推动真实的产业变化,而不只是停在论文上。<br>
Q16:过去一年,您个人最深刻的认知重塑是什么?<br>
陈博远:最大的认知重塑有两点: 第一,“物理的通用性”从我做学术时的一个抽象命题,真正在我们的工程实验中变成了可验证的事实。当我们看到模型规模扩大后涌现的泛化能力时,我确信这条路径走通了。<br>
第二,真正的底层创新不能只靠个人的技术直觉,需要一群有技术品味的人相互碰撞、修偏纠错。我们不能被短期的商业焦虑驱动,把底层技术做透,生态和开花结果自然水到渠成。
Topics
world model
artificial intelligence
venture capital
Metadata
| Publisher | 王毓婵 |
| Site | 36kr |
| Date | 2026-06-17 |
| Category | report |
| Policy Area | 人工智能 |
| CMS Category | 媒体报道 |
Verification