清华AIR开源UniLab:机器人运控训练速度提升10倍,跨平台兼容Mac

清华大学智能产业研究院(AIR)开源了机器人强化学习训练架构UniLab,采用CPU仿真+GPU策略训练的异构设计,将端到端训练速度提升3至10倍,并支持Apple Silicon等非CUDA平台,让人形机器人运控训练步入分钟级时代。

清华大学智能产业研究院(AIR)DISCOVER Lab联合多所高校与企业,近日正式开源了机器人强化学习训练架构UniLab。该架构将物理仿真与策略学习分离,采用“CPU并行仿真+GPU梯度更新”的异构设计方案,在相同硬件条件下将端到端训练速度提升3至10倍,并首次实现了对Apple Silicon等非CUDA平台的原生支持。

解构GPU独占范式

现有机器人运控训练框架如IsaacLab、MuJoCoPlayground等,普遍将仿真计算与策略学习全部放在GPU上串行执行,导致在多核CPU闲置的同时,GPU也因频繁等待仿真数据而产生空转,且整套流程高度绑定NVIDIA CUDA生态。UniLab团队从系统层重构了仿真与学习的协同方式:CPU利用多核并行运行MuJoCo或MotrixSim物理引擎,GPU专注于策略网络的梯度更新,两者通过共享内存构建的无锁运行时缓冲区实现数据流水线重叠,大幅消除等待延迟。

实测加速与真机验证

在相同硬件的基准测试中,UniLab达到目标奖励所需训练时间仅为传统方案的1/3至1/10。以人形机器人全身运动追踪任务为例,训练可在3分钟内完成。团队已将UniLab训练的策略成功部署至四足行走、人形翻跟头与攀爬、灵巧手操作等6类真机任务,完成了仿真到物理世界部署的完整闭环验证。

这种提速得益于系统结构的优化而非依赖更贵的硬件。传统GPU管线将仿真与学习绑定在同一块显卡上,资源相互竞争;而解耦后,多核CPU与GPU可以全速运行各自擅长的任务,系统整体吞吐量大幅提升。

跨平台支持走向大众化

UniLab去除了对特定硬件的硬编码依赖,原生支持CUDA、Apple Metal(MPS)、AMD及Intel等多种后端,并兼容PPO、APPO、SAC、TD3等主流强化学习算法。在Mac(Apple Silicon)平台上,借助统一内存架构(UMA),CPU仿真与GPU学习之间的数据传输延迟进一步降低,使得开发者无需借助Linux+独显即可本地进行人形机器人训练。这对于降低机器人RL研究门槛、推动教学与快速原型开发具有实际意义。

项目主页、论文与代码均已公开,未来将围绕接触密集型灵巧操作、物理保真度评测、多模态触觉策略等方向持续迭代。UniLab已登上机器人领域顶级期刊IJRR,其开源生态有望为业界提供一套高效、通用的训练底座。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

清华AIR开源UniLab:机器人运控训练速度提升10倍,跨平台兼容Mac - AF 56mm f/1.7 Air, Apple Silicon, UniLab, 机器人强化学习, 混合异构计算集群, 清华大学, 运控训练

发表回复