清华大学智能产业研究院(AIR)DISCOVER Lab联合多所高校与企业,近日正式开源了机器人强化学习训练架构UniLab。该架构将物理仿真与策略学习分离,采用“CPU并行仿真+GPU梯度更新”的异构设计方案,在相同硬件条件下将端到端训练速度提升3至10倍,并首次实现了对Apple Silicon等非CUDA平台的原生支持。
解构GPU独占范式
现有机器人运控训练框架如IsaacLab、MuJoCoPlayground等,普遍将仿真计算与策略学习全部放在GPU上串行执行,导致在多核CPU闲置的同时,GPU也因频繁等待仿真数据而产生空转,且整套流程高度绑定NVIDIA CUDA生态。UniLab团队从系统层重构了仿真与学习的协同方式:CPU利用多核并行运行MuJoCo或MotrixSim物理引擎,GPU专注于策略网络的梯度更新,两者通过共享内存构建的无锁运行时缓冲区实现数据流水线重叠,大幅消除等待延迟。
实测加速与真机验证
在相同硬件的基准测试中,UniLab达到目标奖励所需训练时间仅为传统方案的1/3至1/10。以人形机器人全身运动追踪任务为例,训练可在3分钟内完成。团队已将UniLab训练的策略成功部署至四足行走、人形翻跟头与攀爬、灵巧手操作等6类真机任务,完成了仿真到物理世界部署的完整闭环验证。
这种提速得益于系统结构的优化而非依赖更贵的硬件。传统GPU管线将仿真与学习绑定在同一块显卡上,资源相互竞争;而解耦后,多核CPU与GPU可以全速运行各自擅长的任务,系统整体吞吐量大幅提升。
跨平台支持走向大众化
UniLab去除了对特定硬件的硬编码依赖,原生支持CUDA、Apple Metal(MPS)、AMD及Intel等多种后端,并兼容PPO、APPO、SAC、TD3等主流强化学习算法。在Mac(Apple Silicon)平台上,借助统一内存架构(UMA),CPU仿真与GPU学习之间的数据传输延迟进一步降低,使得开发者无需借助Linux+独显即可本地进行人形机器人训练。这对于降低机器人RL研究门槛、推动教学与快速原型开发具有实际意义。
项目主页、论文与代码均已公开,未来将围绕接触密集型灵巧操作、物理保真度评测、多模态触觉策略等方向持续迭代。UniLab已登上机器人领域顶级期刊IJRR,其开源生态有望为业界提供一套高效、通用的训练底座。
本文参考来源:量子位



