上海创智学院副教授、智元机器人首席科学家罗剑岚团队近日发布了τ0-World Model(以下简称τ0-WM),这是一个面向具身智能的开源世界模型。该模型参数量达到5B,预训练数据规模约3万小时,其中真机遥操作数据达1.78万小时,是迄今为止全球最大的开源预训练具身世界模型。
与具身智能领域常见的端到端反应式策略不同,τ0-WM在行动前引入了测试时计算(Test-Time Computation),让机器人能够在“虚拟沙盘”中多次推演不同动作的后果,比较并筛选出最优方案。该方法旨在提升机器人在接触密集、长程跨度或存在严重遮挡的复杂操作任务中的可靠性。

测试时计算实现“沙盘推演”
τ0-WM的在线推理流程分为三步。首先,视频动作模型(VAM)根据当前多视角观测、语言指令及机器人状态,一次采样多组候选动作并生成对应模糊未来画面。接着,动作条件视频模拟器为每组候选动作生成更精细的多视角未来预测,使模型即使在遮挡情况下也能评估动作后果。最后,系统通过一致性评分(RCS)对候选动作打分,若最优动作分数未达阈值,则启动低质量动作修正机制(LAR),借助未来状态预测重新生成动作。这一流程让机器人不再仅凭当前感知瞬时输出动作,而是在“想象”中比较并修正后执行。
τ0-WM的两个核心组件——VAM和动作条件视频模拟器——共享视频扩散backbone,其中VAM基于Wan2.2-5B视频生成模型构建,同时输出未来视频潜变量和动作块。动作条件视频模拟器则专门评估未来状态和任务进度。两种组件配合使用,使模型在推理阶段保留了显式的未来想象,并真正用于动作决策。
近3万小时预训练数据构成
τ0-WM的训练数据由三部分组成。真机遥操作数据是核心,来自双臂机器人多视角采集,动作空间与部署环境对齐,提供了高质量的动作监督信号,这部分数据达1.78万小时,占比超过六成。其次是UMI(Universal Manipulation Interface)数据,覆盖更丰富的场景和物体种类,但动作空间不完全对等,主要用于增加行为多样性。第三类是约3000小时的人类第一视角视频数据,成本最低且覆盖大量长尾场景,但因缺乏机器人动作标签,模型只能从中学习视觉和交互模式。三类数据通过模态特定监督掩码(modality-specific supervision masks)统一在同一训练框架中,使预训练与后续微调实现了更好的衔接。
在工具收纳、书包装物、羽毛球装盒和水管接头对接四个长程精细操作任务中,τ0-WM的平均成功率超过了对比模型π0.5和Fast-WAM。其开源发布也为相关研究提供了可复现的基线。
本文参考来源:量子位
微信扫描下方的二维码阅读本文



