Who Will Be the First to Build a Full-Modal World Model?

Full text · 原文 5,537 字

从DeepMind到阿里腾讯，各路玩家涌入世界模型。但背后最终争夺的不只是算力与资源，而是什么架构能真正构建物理世界。 过去18个月，世界模型正成为AI领域竞争密度快速升高的新战场。参与者从全球科技巨头、视频生成公司、机器人公司、游戏引擎厂商，到自动驾驶企业，几乎无一缺席。 海外，DeepMind发布Genie 2，通过生成下一帧预测为具身智能创建训练场；英伟达有Cosmos世界模型；李飞飞创立的World Labs估值已达50亿美元；图灵奖得主杨立昆也携10.3亿美元重金创业，专攻世界模型；国内，小鹏汽车上线X-World，智元机器人等也相继发布自研世界模型；4月，阿里、腾讯更是在48小时内先后下场，字节蓄势卡位，世界模型正式进入战略必争序列。 世界模型是具身智能与机器人落地的底层前提，是游戏、工业仿真、数字孪生下一代形态的入口，更是AI从聊天走向“行动与造物”的分水岭。谁先建立对物理世界的完整建模能力，谁就可能掌握下一代AI的话语权。当下，其在内容生成、影视特效、游戏开发、工业仿真等领域已显露出实际商业价值。 但热闹背后，一个基础问题悬而未决：世界模型到底是什么？ 01 世界模型，AI下一个“必争之地” 实际上，今天宣称自己在做“世界模型”的公司，超过一半可能根本没做世界模型——因为行业至今没有统一定义，十位专家可能有十种说法。 当下主流探索主要分为三条路线：一，状态预测路线，以杨立昆为代表，构建显式状态空间，让模型学会预测下一个世界状态，路线偏向具身智能，强调对物理规律的先验建模。二，3D交互路线，以李飞飞及Google为代表，致力于构建可交互的三维世界形态。三，从视频生成出发的路线。很多对世界的理解，可以从大规模数据中直接涌现，不一定要预先构建显式状态空间，也不一定完全依赖强先验知识。 但三条路线都没能回答一个问题：虽然能生成逼真画面，但如何真正理解物理世界并做出精准的行动决策？ 尤其在具身智能场景，机器人要精准判断物体材质、抓取力度，微操作偏差一毫米就能给生产造成巨大损失。比如状态预测路线，本质是统计建模，一旦遇到新工厂、新家居长尾变化，统计规律迅速失效；3D交互路线，虽能还原视觉空间，却无法推导出摩擦力、接触力等执行层面的物理量；视频生成路线是追求下一帧像素是否逼真，而非动作序列是否有效。 这些问题暴露出一个共同缺口：用单一或有限模态，无法完整描述一个全模态的物理世界。语言描述不了摩擦系数，视频捕捉不了力反馈。 “目前所有主流模型架构，都不能支撑将来真正的世界模型，所以必须做架构创新。”智象未来创始人兼CEO梅涛说。在众多路线的争议中，智象未来的判断是：真正的世界模型必须是全模态的，能够任意输入、任意输出，与物理世界打通。下一代模型架构竞争的关键，不是单一模态能力的叠加，而是要从多模态走向全模态，以原生统一架构，对物理世界进行原生、全模态的统一建模。 基于这一判断，2026年4月，智象未来正式发布了新一代原生全模态世界模型架构及图像大模型 HiDream-O1-Image，采用全球首创的UiT架构，这标志着智象未来进一步明晰了从视觉生成的多模态大模型走向原生全模态世界模型的技术方向路线。 作为该架构落地的首个重磅产品，图像大模型HiDream-O1-Image的闭源版本参数达到千亿级别，在六项业界标准Benchmark中达到SOTA，超越了Google的Nano Banana 2、GPT Image 1等主流模型；同时发布的还有8B开源版本，适配本地部署和低代码智能体调用场景。 智象未来联合创始人兼CTO姚霆解释称，选择先以图像大模型为切入点，是因为“图像是世界建模的空间基底，定格了现实世界瞬时时刻的完整状态信息”。在他看来，图像不是独立于视频之外的单点能力，而是视频生成乃至通向原生全模态世界模型的关键入口。 从技术侧看，当前视频生成链路中，80%到90%的问题根源在前端图像阶段——图像没做好，视频一定做不好。从成本侧考虑，图像也是最适合进行Scale Up的切入点。在智象未来的实践中，先以图片模型验证架构可行性，再将架构迁移至视频模型，可将训练成本控制在行业平均水平的1/5到1/10。在UiT原生统一架构下，图像与视频训练也能够协同进行、相互增强，从而为模型进一步走向全模态奠定基础。 在全球技术版图中，智象未来与World labs，Pika labs、Physical Intelligence分属不同技术路径。 Pika以视频生成为核心产品方向，智象未来的目标指向全模态世界模型。World Labs更强调空间建模与空间智能，智象未来并不锚定于空间这一单一维度，而是在架构层面寻求全模态能力的原生统一。Physical Intelligence的切入点是机器人控制与动作智能，智象未来在现阶段并未从具身控制端直接进入，而是优先构建统一的生成式底座，以此打通对物理世界的表达、理解与重构能力。某种意义上，它更接近中国世界模型版图中一个重要的生成式能力方案。 02 十年视觉，专注架构创新 在通往全模态世界模型这条赛道上，不少玩家是在资本热潮中入场的。智象未来进入这个领域的时间更早。 2017年，这支团队的核心力量还在微软亚洲研究院时，梅涛已带领团队提出TGANs-C，是全球最早的“文本生成视频”模型之一。彼时距离Sora问世还有整整七年。当年那篇论文的作者，今天全部都在智象承担核心基模研发工作。在视觉生成这条技术线上，他们积累已有十多年。 从微软离开后，团队加入京东，将视觉能力相继落地于京东商城APP上的拍照购“以图搜图”功能，以及物流仓里的智能机械臂等产品。面对京东超1000万自营SKU中从易碎品到异形件的复杂品类，该机械臂系统实现了毫秒级视觉识别与动作预测，精准识别并抓取超过10万种不同商品，单台设备分拣效率达到约510件/小时，且7×24小时稳态运营。 团队由此积累了视觉能力在工业场景中落地的经验，也开始意识到这套能力的边界与上限。 2023年，ChatGPT引爆大模型浪潮，Midjourney让图像生成第一次大规模进入大众视野，团队判断这一方向有“更大场景的可能性”，智象未来成立。 从2023年创立至今，智象未来在模型架构上保持极快的更新迭代，基本形成一年一代的演进节奏。作为国内最早布局多模态大模型的团队之一，智象发布了基于 DiT 架构的产品vivago.ai，并在全球首次推出全新的“扩散自回归”（Diffusion + AR）模型架构。相较于单一生成路径，这一范式更强调性能与效率的平衡，在生成质量、时序一致性和可控性上持续突破行业标准。其背后，体现的是智象核心技术团队对模型底层架构创新的长期坚持：每一次更新都不是在原有架构上简单的增量优化，而是对底层逻辑的创新。 团队认为，有时候的确要做一些难而正确的事。而在几个关键技术节点上，他们认为都抓住了突破口，在某些时间节点比同类方案早3到6个月。这不是所有团队都能跨越的门槛。 为何持续押注架构创新？梅涛给出了一个分析判断：创业公司没有大厂的生态优势和算力资源，所以不应简单地走跟随路径，而是找到世界模型关键节点，寻求独特创新，智象未来结合自身技术优势，聚焦底层模型架构，从图片生成模型、视频生成模型，转向原生全模态世界模型架构，通过模型架构创新提高性能天花板，用更少的成本跑出更高的上限。 要理解这次原生全模态架构升级的意义，需要先了解DiT的内在局限。 传统DiT的做法是文字、图片、视频、动作各自独立编码，然后在隐空间里交互，再解码输出。多个模态分别编码、压缩、拼接，存在信息损失，这被认为是当前图像、视频生成中精度损耗与输出不可控的原因之一。 智象UiT架构的核心改变是：将文字、图片、视频、动作等的Token，以更接近原始信号的形式直接进入统一模型，实现原生全模态的统一编码与处理，使模型第一次具备跨模态的“连续理解能力”，而不是简单的模态对齐。梅涛强调“不是今天有一个模型就能自然做成世界模型，世界模型必须是一个原生全模态架构的问题”。 架构的持续创新之外，梅涛还给出了一套判断标准——用来区分真正的世界模型与视觉模拟器，包含三要素： 第一，原生全模态表达——能够表达全世界所有模态的信息，包括视觉信息、动作信息、传感器信息、天气信息等等，而不只是某一类模态；第二，推演能力——能够结合物理规律、因果关系去做可验证的推理，而不只是生成看起来合理的画面；第三，构造世界的能力——不只是model the world，而是mold the world，能够构造和重塑世界，而不只是描述理解它。 简言之，要具备表达世界、推演世界、构造世界的能力。 HiDream-O1是智象向这三个方向迈出的第一步。它标志着智象开始从以视觉生成为主的产品形态，向面向物理世界建模的方向转型。梅涛没有回避这一步的阶段性，“它是我们在不断探索前沿技术过程中的一个阶段性认知。如果你想做世界模型，就一定要不断推动底层技术往前走”。 而就在HiDream-O1发布不久前，智象未来还与诺亦腾机器人宣布战略合作，通过“真实数据+生成式视频数据”的融合范式，共建高精度、规模化具身视频数据，把技术能力扎进了具体工程场景中。 具身智能的发展需要高质量多模态数据，但传统采集方式成本高、效率低，穿戴式动捕设备还容易对人体形态、遮挡关系产生干扰，形成明显的“Vision Gap”（视觉鸿沟）。智象未来与诺亦腾要填上这道沟。诺亦腾用高精度动捕设备采集真实物理反馈数据，智象未来则负责将这些原始传感数据进行百倍以上精细化放大，预计年内将共同产出数万小时高质量具身智能视频训练数据。 普通通用视频生成模型往往以视觉效果为导向，容易出现内容幻觉或物理逻辑矛盾的问题。而智象未来的自研模型则能基于动捕数据进行高可控的生成式优化——既能确保每帧视频与底层操作数据精准匹配，又能极大丰富场景、光影及人体形态的复杂度，从而更贴合具身智能企业的高精度训练需求。 这种质变，划定了智象未来的战略分水岭：如果只停留在更高质量的视频生成层面，本质上仍是在AIGC工具赛道内竞争；而更进一步打通原生全模态架构、真实动作数据、交互视频以及生命科学等更复杂场景，它很有可能在中国世界模型生态中占据更靠近底层的关键位置。 03 1+1+3：从模型架构创新到商业闭环 世界模型的架构迭代明确之后，下一个问题是：如何转化为可执行的商业？ 智象未来在内部构建起了一个“1+1+3”业务架构：以1个HiDream系列原生全模态大模型为底座，1个HiHarness-Token Hub平台提供标准化模型能力输出，在此之上初步延伸出三大场景应用。 其中，HiHarness-Token Hub平台是今年技术上的第一优先级。它在底座与产品之间，承担统一调度与能力编排的职能。这层中台汇集了模型能力、API能力、行业Know-how与Skill编排能力，同时集成第三方与开源模型。现已对外开放300+API，接入100+KA客户，累计调用次数超30亿次，支持订阅制、行业定制及私有化MaaS服务。 “3”，则是围绕三大核心场景的AIGC产品线： 在AIGC社媒创作领域，面向专业创作者（OPC），打造一站式AI Agent创作工具vivago.ai，通过自研3D video模型与推理加速，将特效生成提速至秒级，已覆盖全球超3000万专业用户。其中80%为海外用户，今年一季度单月新增用户就超过千万。 在AIGC商业营销领域，构建线上跨境电商短视频营销与线下营销的一体化产品能力。线上，HiBurst平台解决商家营销创意不足、素材生产效率低、跨平台适配成本高等难题，已成为TikTok前五大AI合作伙伴；线下，软硬件一体智能营销终端HiDreamFans已服务全国超万家实体店铺，今年一季度销售已超去年全年。 在AIGC影视创作领域，发布全球首个专业级AI影视创作协作智能体——“帧赞”，以电影级画质生成和“创意-分镜-成片”全流程打通为核心能力。目前智象已累计制作短漫剧超过5000分钟。采用帧赞作为AI技术支持的奇幻悬疑AI仿真人短剧《秦岭青铜诡事录》上线仅12小时，就很快上升至腾讯视频竖屏热播榜第一，成为2026年AI短剧赛道标志性爆款。 一些新的业务线也在快速起势。除了之前提到在具身智能赛道的拓展，智象已与百图生科（BioMap）深度协同共建微观世界模型，用于分子动力学理解，赋能生物医药创新。 这一布局是智象未来“全模态世界模型”底座能力的自然外溢。行业人士观察，很多具身智能公司低估了一件事：没有强视频底座，很难走远。而随着模型能力的升级，智象未来生成的视频精度已达毫米级，完全能满足具身智能训练大模型时对监控和标注的要求。梅涛进一步预测，未来，得益于在数百万小时视频数据上学到的规律，“如果要做一个端到端的具身智能模型，我们需要的数据小时数，可能只是一些公司的十分之一，甚至百分之一。” 从商业营销、社媒和影视创作，到具身智能，智象未来“3”的业务边界还在不断延展，而这最终都指向了这家公司对自身长期竞争力的深层思考：模型创新力、产品迭代力、商业生态力。三层之间相互依赖，任何一层单独成立，都不足以支撑一家长期创新的大模型技术创新公司。 从单一视觉到多模态，再到全模态统一表征，这不仅是世界模型进化的必经之路，更是通往AGI的关键里程碑。当行业逐渐达成共识——掌握全模态能力即掌握下一代智能的钥匙时，这场关于“物理世界建模”的终极命题，才刚刚拉开序幕。

Site key	ifeng
Policy area	人工智能
Category	report
CMS	媒体报道
AI score	0.32

Who Will Be the First to Build a Full-Modal World Model?

全模态世界模型这条路，谁会先跑出来？