清华AIR开源UniLab：机器人运控训练提速10倍，跨平台兼容Mac

清华大学智能产业研究院（AIR）DISCOVER Lab联合多所高校与企业，近日正式开源了机器人强化学习训练架构UniLab。该架构将物理仿真与策略学习分离，采用“CPU并行仿真+GPU梯度更新”的异构设计方案，在相同硬件条件下将端到端训练速度提升3至10倍，并首次实现了对Apple Silicon等非CUDA平台的原生支持。

解构GPU独占范式

现有机器人运控训练框架如IsaacLab、MuJoCoPlayground等，普遍将仿真计算与策略学习全部放在GPU上串行执行，导致在多核CPU闲置的同时，GPU也因频繁等待仿真数据而产生空转，且整套流程高度绑定NVIDIA CUDA生态。UniLab团队从系统层重构了仿真与学习的协同方式：CPU利用多核并行运行MuJoCo或MotrixSim物理引擎，GPU专注于策略网络的梯度更新，两者通过共享内存构建的无锁运行时缓冲区实现数据流水线重叠，大幅消除等待延迟。

实测加速与真机验证

在相同硬件的基准测试中，UniLab达到目标奖励所需训练时间仅为传统方案的1/3至1/10。以人形机器人全身运动追踪任务为例，训练可在3分钟内完成。团队已将UniLab训练的策略成功部署至四足行走、人形翻跟头与攀爬、灵巧手操作等6类真机任务，完成了仿真到物理世界部署的完整闭环验证。

这种提速得益于系统结构的优化而非依赖更贵的硬件。传统GPU管线将仿真与学习绑定在同一块显卡上，资源相互竞争；而解耦后，多核CPU与GPU可以全速运行各自擅长的任务，系统整体吞吐量大幅提升。

跨平台支持走向大众化

UniLab去除了对特定硬件的硬编码依赖，原生支持CUDA、Apple Metal（MPS）、AMD及Intel等多种后端，并兼容PPO、APPO、SAC、TD3等主流强化学习算法。在Mac（Apple Silicon）平台上，借助统一内存架构（UMA），CPU仿真与GPU学习之间的数据传输延迟进一步降低，使得开发者无需借助Linux+独显即可本地进行人形机器人训练。这对于降低机器人RL研究门槛、推动教学与快速原型开发具有实际意义。

项目主页、论文与代码均已公开，未来将围绕接触密集型灵巧操作、物理保真度评测、多模态触觉策略等方向持续迭代。UniLab已登上机器人领域顶级期刊IJRR，其开源生态有望为业界提供一套高效、通用的训练底座。