2026年6月4日,斯坦福大学教授、World Labs联合创始人李飞飞(Fei-Fei Li)在社交平台发文,正式对“世界模型”这一概念做出清晰界定——将其划分为渲染、模拟、规划三大功能,并指出三者的边界正在消融,统一的世界模型是未来方向。她直言,世界模型是当今人工智能领域“最重要也最被滥用的术语之一”。
李飞飞认为,智能体(人、机器人或系统)通过行动影响世界状态,而世界模型正是对这一循环的建模。具体到功能,世界模型需要具备三种能力:渲染器负责生成视觉观察,规划器决定下一步动作,模拟器则提供可计算、可交互的状态——后者在近期研究中讨论最少,但却是连接渲染与规划的关键桥梁。
三大功能:渲染、模拟、规划
渲染器(Renderer)以视觉保真度为核心指标,输出给人眼观看的观察结果。代表产品包括谷歌的Genie 3以及李飞飞自家World Labs的RTFM。这类模型不依赖对三维结构的明确理解,生成的是“看起来正确”的画面,而非物理精确的实体。其商业成熟度最高,比如风靡全球的Nano Banana,但局限也很明显:优化的是视觉逼真度而非物理精度,无法直接用于建筑设计或机器人训练等需要与现实世界严格对齐的场景。

规划器(Planner)接收观察和目标,输出下一步动作。视觉-语言-动作模型(VLA)以及新一代世界动作模型均属此类。规划器决定了机器人在非结构化环境中的行为策略,具身智能和大量资本正涌入这一环节。不过李飞飞指出,目前令人印象深刻的机器人演示大多局限于实验室,目标对象范围窄、任务周期短,缺乏真实世界部署所需的复杂性和鲁棒性验证。
模拟器(Simulator)强调几何、物理和动态一致性,输出可计算、可交互的状态。模拟器要求几何结构经得起检验,物理行为符合现实规律,同时服务两类用户:建筑师、设计师、游戏开发者等需要高精度虚拟环境的专业人士,以及强化学习智能体、机器人控制器和自动驾驶系统等需要海量交互训练的领域。李飞飞认为,模拟器是“视觉外观和动作后果得以生成的结构骨架”,但数据瓶颈——具备明确几何和物理标注的三维数据数量远少于互联网视频——是其主要挑战。
边界消融:走向统一世界模型
李飞飞在文章中指出,渲染、模拟、规划这三种功能所需要的知识在很大程度上是同一套知识。如果一个模型真正理解“杯子放在桌子上的几何结构、材料属性和受力反应”,那么它就应该能同时做到从任意角度渲染杯子、模拟杯子被推动后的物理响应,以及规划一只手如何拿起它。近期研究已经证明,一个预训练的视频渲染器可以作为联合世界预测和动作预测的骨干网络,暗示渲染器和规划器之间存在天然桥梁。
World Labs最新发布的Marble正是这种边界消融的实践产物。Marble支持文本、图像、视频或空间草图等多模态输入,可生成可探索的3D环境,并同时输出Gaussian Splats和碰撞网格——前者服务于视觉渲染,后者服务于物理模拟。李飞飞强调,Marble仅仅是该领域漫长发展历程的开端,但已展现出渲染器与模拟器融合的可能性。
李飞飞乐观地表示,三条本来独立的研究线索,各自已经驱动并塑造了数十亿美元级别的产业。如今它们开始表现得像同一件事——渲染器以行动为条件,模拟器生成更可控的世界,规划器从单纯反应走向审慎思考。当三者的边界共同塌缩,机器智能与其所处的物理世界之间的关系将被重新定义。
数据鸿沟与工程挑战
尽管方向清晰,但现实挑战依然严峻。渲染器拥有海量互联网视频,而模拟器和规划器严重缺乏3D资产和机器人演示数据。追求视觉美感可能会牺牲机器人或高保真模拟所需要的精度,如何在单一架构中调和这些矛盾,是当前世界模型研究最核心的开放问题。此外,大规模多物理场模拟(刚体、可变形物体、流体、布料交互等)的成本比单域模拟高出几个数量级,生成式模拟器引入的“看起来正确但物理不精确”的风险也需要解决。
李飞飞将这一趋势称为“空间智能的漫长弧线”——语言给了机器一种谈论世界的方式,而世界模型将是机器最终理解、想象、推理并与世界互动的方式。
(注:关于Marble的具体技术细节及Demo效果,请关注后续报道。)
参考来源:李飞飞社交平台文章(2026年6月4日);量子位报道;新智元解读文章。
名词解释与规格科普
世界模型(World Model):指智能体对外部世界运转规律的内部表示,能够预测不同行动带来的状态变化,是空间智能的核心技术之一。李飞飞将其功能划分为渲染、模拟、规划三类。
渲染器(Renderer):以视觉保真度为目标,生成供人类观察的视觉画面,优化像素级别的逼真度,代表技术如3D高斯溅射(3D Gaussian Splatting)。
模拟器(Simulator):强调几何、物理和动态一致性,输出可计算、可交互的状态,是连接视觉和动作的结构骨架,广泛应用于机器人训练、自动驾驶测试和工程仿真。
规划器(Planner):接收观察与目标,输出下一步动作序列,典型实现包括视觉-语言-动作模型(VLA),是具身智能的关键组件。
本文参考来源:量子位
微信扫描下方的二维码阅读本文


