蚂蚁灵波LingBot-VA论文被RSS 2026接收,实现边推演边行动的机器人控制

蚂蚁灵波科技与香港科技大学等高校合作的论文《Causal World Modeling for Robot Control》被机器人顶会RSS 2026接收。论文提出因果世界建模框架,并落地为开源自回归视频-动作世界模型LingBot-VA,使机器人能边预测边行动。在仿真与真实任务上均取得优异性能,成功率远超业界基线。

蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems(RSS)2026 接收。RSS 是全球机器人领域公认的顶级学术会议之一,录用标准严格,此篇论文的入选标志着相关研究获得国际机器人研究共同体的高度认可。

该论文的核心是面向机器人控制的因果世界建模框架,并将其落地为全球首个开源的自回归视频-动作世界模型——LingBot-VA。该模型让机器人不再只是完成预设动作,而是在执行任务过程中持续预测环境变化,并根据预测结果生成下一步动作指令,具备类似人类“边观察、边判断、边行动”的能力。

因果世界建模与技术实现

真实物理世界随时间向前演化,机器人的决策也必须遵循这一因果顺序。LingBot-VA 将因果关系写入模型结构,每一步预测只依赖此前的观察和动作,按时间顺序逐步推演。这使得模型生成的不是一段单纯的未来视频,而是一条可用于机器人控制决策的因果轨迹,同时赋予模型更强的长期记忆能力,对完成长时序、多步骤的真实任务至关重要。

LingBot-VA 技术框架示意图
LingBot-VA 技术框架示意图

在技术实现上,LingBot-VA 采用 Mixture-of-Transformers(MoT)架构,将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制,在执行过程中持续接收真实环境反馈,以减少长时间预测中的误差累积。

性能表现与评测

论文在仿真基准和真实机器人任务上系统验证了 LingBot-VA 的性能。在 RoboTwin 2.0 的 50 个双臂操作任务中,LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率;在 LIBERO 基准上达到 98.5%。

在真实世界评测中,面对长时序、高精度以及柔性与关节物体操控三大类共 6 项高难度挑战,LingBot-VA 仅需 50 条真实示范数据即可完成适配,整体成功率较业界基线 π0.5 提升超过 20 个百分点,展现出良好的数据效率和泛化能力。

此次论文入选 RSS 2026,意味着蚂蚁灵波在“世界模型驱动机器人控制”方向上的探索获得国际顶级学术平台认可,也进一步验证了 LingBot-VA 作为具身智能基础模型的技术价值。这一路线有望推动机器人从依赖指令执行,走向更强的环境理解、任务泛化和自主决策。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

蚂蚁灵波LingBot-VA论文被RSS 2026接收,实现边推演边行动的机器人控制 - LingBot-VA, Mixture-of-Transformers, RSS 2026, 世界模型, 因果世界建模, 机器人控制, 自回归视频-动作模型, 蚂蚁灵波

发表回复