τ0-WM：最大规模开源预训练具身世界模型，参数5B，真机数据1.78万小时

上海创智学院副教授、智元机器人首席科学家罗剑岚团队近日发布了τ0-World Model（以下简称τ0-WM），这是一个面向具身智能的开源世界模型。该模型参数量达到5B，预训练数据规模约3万小时，其中真机遥操作数据达1.78万小时，是迄今为止全球最大的开源预训练具身世界模型。

与具身智能领域常见的端到端反应式策略不同，τ0-WM在行动前引入了测试时计算（Test-Time Computation），让机器人能够在“虚拟沙盘”中多次推演不同动作的后果，比较并筛选出最优方案。该方法旨在提升机器人在接触密集、长程跨度或存在严重遮挡的复杂操作任务中的可靠性。

测试时计算实现“沙盘推演”

τ0-WM的在线推理流程分为三步。首先，视频动作模型（VAM）根据当前多视角观测、语言指令及机器人状态，一次采样多组候选动作并生成对应模糊未来画面。接着，动作条件视频模拟器为每组候选动作生成更精细的多视角未来预测，使模型即使在遮挡情况下也能评估动作后果。最后，系统通过一致性评分（RCS）对候选动作打分，若最优动作分数未达阈值，则启动低质量动作修正机制（LAR），借助未来状态预测重新生成动作。这一流程让机器人不再仅凭当前感知瞬时输出动作，而是在“想象”中比较并修正后执行。

τ0-WM的两个核心组件——VAM和动作条件视频模拟器——共享视频扩散backbone，其中VAM基于Wan2.2-5B视频生成模型构建，同时输出未来视频潜变量和动作块。动作条件视频模拟器则专门评估未来状态和任务进度。两种组件配合使用，使模型在推理阶段保留了显式的未来想象，并真正用于动作决策。

近3万小时预训练数据构成

τ0-WM的训练数据由三部分组成。真机遥操作数据是核心，来自双臂机器人多视角采集，动作空间与部署环境对齐，提供了高质量的动作监督信号，这部分数据达1.78万小时，占比超过六成。其次是UMI（Universal Manipulation Interface）数据，覆盖更丰富的场景和物体种类，但动作空间不完全对等，主要用于增加行为多样性。第三类是约3000小时的人类第一视角视频数据，成本最低且覆盖大量长尾场景，但因缺乏机器人动作标签，模型只能从中学习视觉和交互模式。三类数据通过模态特定监督掩码（modality-specific supervision masks）统一在同一训练框架中，使预训练与后续微调实现了更好的衔接。

在工具收纳、书包装物、羽毛球装盒和水管接头对接四个长程精细操作任务中，τ0-WM的平均成功率超过了对比模型π0.5和Fast-WAM。其开源发布也为相关研究提供了可复现的基线。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

τ0-WM发布：最大规模开源预训练具身世界模型参数达5B

测试时计算实现“沙盘推演”

近3万小时预训练数据构成

阿逸

发表回复取消回复

测试时计算实现“沙盘推演”

近3万小时预训练数据构成

阿逸

相关文章

OpenAI联合创始人Andrej Karpathy加入Anthropic，聚焦预训练研究

华为“养”出半个具身智能创业圈：具身智能赛道华为系创业者密集涌现

发表回复取消回复