“AI教母”李飞飞深夜发文：所有人都在造“世界模型”，但根本不是同一件事

张

张建站

2026/6/5 9:37:10

10分钟阅读

如今关于“世界模型”的定义仍众说纷纭。今日凌晨斯坦福大学教授、World Labs 联合创始人李飞飞发布了一篇文章亲自厘清了这一概念。她在X上写道“世界模型”是当今 AI 中最重要、也最被过度使用的术语之一。她提出功能分类法将“世界模型”划分为渲染器、模拟器与规划器三类。她指出模拟器受到的关注最少却最为关键。世界模型的逻辑终点是统一的世界模型但目前仍面临三维数据稀缺、从仿真到现实的差距等挑战。全文如下世界模型的功能分类法“世界是一切发生的事情。” —— 路德维希·维特根斯坦《逻辑哲学论》1921 年世界并不是由文字构成的。在上一篇文章中我们曾提出空间智能是 AI 的下一个前沿而世界模型正是通向这一前沿的路径。在这篇文章里我和 World Labs 团队想再往下追问一层在如今各种被称作“世界模型”的东西里究竟是哪些功能部分共同构成了这种能力每一部分又分别承担什么作用语言模型让机器获得了对概念、词汇和推理的非凡掌控力但无论是真实世界还是虚拟世界其底层运行逻辑并不相同。语言模型学习的是文本的统计结构而世界模型学习的是空间与时间的统计结构光线如何落在表面上一个花园从从未被相机拍到过的角度看起来会是什么样物体在受力后会如何运动又如何遵循物理规律。这也使得“世界模型”成了当今 AI 领域最重要、同时也最被过度使用的术语之一。计算机视觉、机器人、强化学习和生成式 AI 都声称自己在构建世界模型但它们所指的往往完全不是同一回事。一个能生成华丽却物理上根本不成立火焰的视频模型一个能够即兴生成可玩游戏的语言模型以及一个能忠实模拟燃烧过程的物理引擎都会被称作“世界模型”。古希腊人始终无法就世界究竟由什么构成达成一致是火是水还是不可分割的原子因为“世界”从来就不是单一之物。它一直只是一个代称指向某位思想家为进行推理所需要把握的那个整体。AI 继承了同样的问题而且偏偏发生在这个领域最需要精确性的时刻。分类法之下的循环要理清这种混乱不妨从一张比这些技术都古老得多的示意图讲起。几十年来强化学习教材包括 Sutton 和 Barto 的经典著作都用某种版本的同一张图来说明智能体如何与世界交互。对这一交互框架的正式描述是“部分可观测马尔可夫决策过程”POMDP而“世界模型”一词最初的技术含义正是出自这一传统。一个智能体可以是人、机器人也可以是软件系统会采取行动。这些行动会影响世界的状态。智能体永远无法直接看到状态本身。真正到达智能体的是观测落在视网膜上的光子、传感器的读数、视频帧里的像素。新的观测引出新的行动如此循环往复。“状态”这个词需要展开说明因为它在不同领域里的含义会发生变化。这里说的不是化学中的状态不是固态、液态和气态的区别。这里说的是物理学家和机器人学家意义上的状态对某一时刻世界中正在发生的一切所做出的完整描述包括每一个物体、每一个位置、每一个速度、每一种属性。状态是世界的底层现实原则上它是完整的但任何身处其中的智能体都无法直接看见它。观测是智能体对这一现实的局部视图行动则是智能体据此作出的响应。这个循环也就是从智能体到行动、到状态、到观测再返回智能体的闭环正是现代“世界模型”一词获得其技术含义的结构。而“世界模型”这个短语本身其实还要更早可追溯到 Kenneth Craik 在 1943 年提出的观点心智通过运行现实的“小尺度模型”来进行推理。到了 20 世纪 80 年代末和 90 年代初这一概念又被引入神经网络研究之中。这个闭环也解释了今天人们使用这个词时究竟在说什么。如今被称作世界模型的种种事物其实都是同一闭环的不同投影。它们各自输出的只是这个闭环中的不同部分。世界模型的三种功能第一类世界模型是渲染器。渲染器输出的是观测以供人眼观看的像素形式呈现而最重要的衡量标准是视觉保真度。一个把文本提示转成电影感无人机镜头的视频模型就是渲染器。像 Google 的 Genie 3或者 World Labs 自己的 RTFM 这样的交互式系统也是如此模型根据用户输入实时生成画面。它并不显式理解三维结构。它生成的是观看者将会看到什么而不是真实世界本身是什么样。无人机镜头里的建筑物也许从高空看上去毫无破绽但如果真要在城市中驾驶穿行整个场景很快就会露出结构性的破绽。第二类是模拟器。模拟器输出的是状态一种在几何、物理或动态层面都忠实于世界的表示人类和计算机程序都能够在其上进行计算与交互。渲染器的承诺纯粹是视觉上的而模拟器的承诺则是结构性的几何必须经得起检验物理必须遵守牛顿定律动态行为也必须按照世界应有的方式运转。模拟器同时面向两类使用者。建筑师、设计师、电影制作人和游戏开发者等专业人士需要超越视觉合理性的准确性。强化学习智能体、机器人控制器和自动驾驶汽车等程序则把模拟器当作训练场在其中大规模与世界交互测试那些在现实中危险、昂贵甚至根本不可能运行的场景。第三类是规划器。规划器输出的是行动。给定一个观测和一个目标规划器回答的是智能体下一步该做什么。从很多意义上说它与渲染器构成逆过程。渲染器以行动为输入产出观测规划器则以观测为输入产出行动从而闭合感知-行动循环。视觉-语言-行动模型、基于模型的系统以及新的 World Action Models都是对规划器的探索它们试图构建能够决定机器人在非结构化世界中该如何行动的系统。这三类大体涵盖了今天真正已经落地的大多数系统而这种区分在实践中也确实有用。不过这些类别并不是根本上彼此分离的。关于世界如何运作的同一种底层知识也就是几何、物理和动力学支撑着它们全部。原则上一个能够从任意角度渲染出杯子的模型也应当能够模拟杯子被推动后会发生什么并规划出一只手如何把杯子拿起来。越来越多最值得关注的研究正在有意模糊这三者之间的边界。为什么模拟是关键枢纽在这三类之中模拟器得到的公众关注最少却也是三者中最关键的一个。渲染器无疑是商业上最成熟的一类。一批文生视频和图生视频产品正在消费市场和企业市场迅速扩张。Google 的 Nano Banana 模型已经把渲染器级别的图像生成能力交到了可能数以亿计的用户手中。这项技术是真实存在的市场也是真实存在的。但渲染器优化的是视觉上的可信而不是物理上的准确而这道能力上限恰恰至关重要。它们的输出很美却不能被拿来设计一栋建筑也不能被拿来训练机器人。规划器则最令人着迷也最处于萌芽期它与快速演进中的机器人学习领域紧密相连。过去两年里这个领域产出了一些看起来很惊艳的机器人演示但我们必须坦率说明这些演示究竟展示了什么。几乎所有演示都局限在高度受控的实验室环境中对象种类有限任务跨度也很短。没有任何一个系统曾在现实部署所要求的复杂性、可变性和持续时间尺度上得到验证。从一段足够吸引人的演示视频到一个能够在厨房、仓库或手术室里稳定工作的机器人中间仍然隔着巨大的鸿沟。即便如此商业押注已经十分庞大。一波资金充足的新玩家正争相推出通用型规划系统而最大的基础设施玩家也在更广泛的模拟技术栈之上布局规划能力。一个会规划的机器人就是一个能够工作的机器人而整个行业都在争夺率先实现这一点的位置。模拟是连接这两者的桥梁。如果说语言是对世界的抽象像素是世界的投影那么几何、物理和动力学就是世界本身。模拟器必须工作在这一层面它是那副结构骨架既能从中导出视觉外观供渲染器使用也能从中导出行动后果供规划器使用。一个真正掌握模拟的模型可以把自己对世界的理解投射成像素供人类观看也可以投射成行动预测供具身智能体使用。而一个只掌握渲染、或者只掌握规划的模型则两者都做不到。这类能力的商业外延极其广阔。仅 NVIDIA 的 Omniverse瞄准的就是公司估算超过一万亿美元的可服务市场涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物发现都依赖某种以模拟为核心的能力。这一领域最难的开放问题也集中在这里。带有显式几何、材料属性和物理标注的三维数据相比渲染器所依赖的互联网视频要稀缺几个数量级。仿真到现实的落差也就是模拟中的行为与现实中的行为之间的差异依然顽固存在。生成式模拟器还引入了新的风险AI 生成的几何结构看起来可能是对的但内部却包含自相交或尺度失真从而导致荒谬的物理结果。大规模多物理场模拟仍然比单一领域模拟昂贵若干数量级在那里刚体、可变形物体、流体和布料都需要彼此交互。在 World LabsMarble 是我们朝这一方向迈出的第一步。它接收多模态提示包括文本、图像、视频或空间草图并生成可探索的 3D 环境同时输出用于视觉探索的 Gaussian splats以及可供物理引擎运算的碰撞网格。但 Marble 只是更长远进程中的第一章。随着渲染、模拟与规划之间的界线开始消融整个领域都在共同书写一条更长的技术弧线。边界如何消融以及接下来会发生什么接下来还会有更多变化。眼下这个领域里最重要的趋势是这三类开始相互融合。其共同的洞见在于渲染一个世界、模拟一个世界以及在其中行动所需要的知识本质上大体相同。继续沿用前面的杯子例子一个真正理解杯子如何放在桌面上的模型理解它的几何结构、材料属性、受力响应等原则上就应当能够从任何角度渲染这个杯子模拟它被推动时会发生什么并规划一只手如何把它拿起来。这三类其实只是同一种底层理解的三种投影。例如近期来自不同机器人实验室的一小批、但数量正在增长的研究已经至少在概念层面表明一个预训练的视频渲染器可以被用作联合进行世界预测与行动预测的骨干。这为渲染器与规划器之间架起了一座桥梁让同一个模型既能想象接下来会发生什么也能判断下一步该做什么。World Labs 的 Marble 已经能够从同一个模型中同时输出 Gaussian splats 和碰撞网格从而消解渲染器与模拟器之间的边界。每一个层级都在从被动输出走向交互式系统渲染器开始变得带有动作条件模拟器开始生成更可控、更可编辑的世界而规划器也开始进行推演而不只是即时反应。这一趋势在逻辑上的终点是一个统一的世界模型一个基础模型既能渲染照片级真实的视图也能产出物理准确的结构还能规划行动序列并根据下游使用者的需求在不同输出模态之间切换。当然我们仍将面对一系列艰巨挑战。数据格局并不均衡渲染器拥有海量互联网视频而模拟器和规划器却严重缺乏 3D 资产和机器人示范数据。对视觉美感的优化可能会牺牲机器人或高保真模拟所需的精确性。如何在同一个架构中调和这些张力是今天世界模型研究中最核心的开放问题而这也正是 World Labs 在继续推进 Marble 时所要解决的问题。不过方向已经很清楚。自 20 世纪 80 年代末以来这个领域一直在押注同一件事只要拥有足够丰富的世界模型智能体就能够看见世界、构建世界并在其中行动。如今正是这一核心押注在驱动整整一代研究。真正让这一押注变得有分量的真正让这一押注变得有分量的是三条原本彼此独立、却都已推动数十亿美元产业的研究路线如今正在走向统一。把它们合在一起看随着这些边界不断消融它们最终将重塑一个更大的命题机器智能与其所栖居的物理世界之间的关系也就是空间智能的长期演化轨迹。语言让机器学会了谈论这个世界世界模型则将让机器最终真正理解它、想象它、推理它并与之互动。编译夏千斯如需转载或投稿请直接在本文章评论区内留言