复旦与通义提出ToolCUA训练范式，解决Agent GUI与工具选择困境

复旦大学与通义实验室MobileAgent团队联合提出ToolCUA，一种面向GUI-Tool混合动作空间的Computer Use Agent训练范式。该研究旨在解决模型在图形用户界面（GUI）操作与工具调用（Tool Call）之间难以做出合理选择的问题。实验数据显示，ToolCUA-8B在OSWorld-MCP基准上达到46.85%的准确率，超过Claude-4-Sonnet，逼近Claude-4.5-Sonnet。目前该项目的代码与模型权重已全面开源。

混合动作空间下的路径选择难题

传统Computer Use Agent（CUA）主要依赖原子化的GUI操作，如点击、输入、拖拽、滚动。这类操作泛化性强，但步骤冗长，在复杂任务中容易积累误差。与之相对，工具调用（Tool Calls）或基于API的操作通常更高效精确，例如在LibreOffice中批量处理表格，一次工具调用即可完成原本需要多个菜单点击的操作。因此，让Agent同时拥有GUI和Tool能力看似是最自然的方案，但实验揭示了反直觉的结果：

在混合动作空间中，Agent每一步都面临GUI与Tool的选择。如果模型缺乏路径选择能力，会出现两类典型失败：Tool Underuse——明明有更高效的工具，模型仍偏向GUI操作；Tool Overuse——频繁调用工具，但调用时机或粒度不当，反而降低成功率。论文将其定义为“最优GUI-Tool路径选择”（Optimal GUI-Tool Path Selection）问题。

研究团队在多个主流模型上进行了验证。Qwen3VL-8B几乎不使用工具（平均tool calls仅0.003），加入工具后准确率从29.0%降至28.2%；Qwen3VL-235B虽更倾向于调用工具（平均tool calls达6.10），步骤数从25.9降至17.4，但准确率反而从41.1%降至38.1%。Claude系列同样如此：Claude-4-sonnet加入工具后步骤数从23.6降至19.2，但准确率从47.7%降至43.5%；Claude-4.5-sonnet步骤数从23.3降至19.1，准确率却从61.9%降至48.4%。这些数据表明，混合动作空间的核心难点不在于是否拥有工具，而在于模型能否在GUI和Tool之间做出正确选择。

第一阶段：数据合成与Tool-Bootstrapped RFT

要训练模型进行路径选择，首先需要高质量的“GUI-Tool交错轨迹”（interleaved GUI-Tool trajectories），但现实中这类数据极度稀缺。真实工具接口往往与应用相关、覆盖不完整且维护成本高；收集真实的混合轨迹又需要复杂的环境接入和人工标注。已有GUI数据规模虽大，但只教授点击等操作，未包含何时使用工具的决策。

ToolCUA的第一步是盘活这些GUI-only数据，并完成混合启动（Hybrid Bootstrapping）。研究团队利用多模态大语言模型（MLLM）从已有GUI轨迹中合成“有依据的工具库”（grounded tool library），再将纯GUI轨迹转换为GUI-Tool交错轨迹。整个流程分为三步：从每条GUI轨迹中分析任务目标、动作序列和截图描述，抽象出可调用的工具（如从Chrome设置流程中抽象出chrome_open_language_settings）；给定合成工具库和原始GUI轨迹，MLLM生成功能等价的纯工具轨迹，并通过下一状态确认（next-state grounding）验证工具步骤与可见状态变化的一致性；最后，系统随机采样部分工具调用并替换回对应的GUI子序列，形成多种GUI与Tool交错的轨迹。这个过程让模型看到不同工具可用性下的决策边界，并自然产生GUI→Tool和Tool→GUI的关键切换步骤。最终，ToolCUA的数据集包含约4000个独特工具，覆盖细、中、粗多级粒度，约18万步数据用于预热监督微调（warmup SFT），并从关键切换步骤中抽取5000条用于单步强化学习（single-turn RL）。

第二阶段：环境交互下的强化学习

在完成数据合成后，模型进入两阶段训练。第一阶段为预热SFT，在全部数据上学习多模态工具调用知识，包括工具用途、参数、返回结果及执行后的状态变化。随后在关键切换步骤上进行单步RL，通过采样多个完成并借助反馈校准模型在局部边界上的选择。第二阶段则是在真实GUI-Tool环境中进行长程交互（long-horizon rollout），让模型在复杂任务中动态学习何时使用GUI操作、何时调用工具、何时无需调用工具，最终形成更高效、更可靠的执行路径。

这项工作揭示了混合动作空间中路径选择的核心挑战，并提供了从数据合成到两阶段训练的系统性解决方案。ToolCUA-8B在OSWorld-MCP上达到的46.85%准确率，为提升Agent在实际场景中的自主能力提供了可行方向。