复旦大学与通义实验室MobileAgent团队联合提出ToolCUA,一种面向GUI-Tool混合动作空间的Computer Use Agent训练范式。该研究旨在解决模型在图形用户界面(GUI)操作与工具调用(Tool Call)之间难以做出合理选择的问题。实验数据显示,ToolCUA-8B在OSWorld-MCP基准上达到46.85%的准确率,超过Claude-4-Sonnet,逼近Claude-4.5-Sonnet。目前该项目的代码与模型权重已全面开源。
混合动作空间下的路径选择难题
传统Computer Use Agent(CUA)主要依赖原子化的GUI操作,如点击、输入、拖拽、滚动。这类操作泛化性强,但步骤冗长,在复杂任务中容易积累误差。与之相对,工具调用(Tool Calls)或基于API的操作通常更高效精确,例如在LibreOffice中批量处理表格,一次工具调用即可完成原本需要多个菜单点击的操作。因此,让Agent同时拥有GUI和Tool能力看似是最自然的方案,但实验揭示了反直觉的结果:
在混合动作空间中,Agent每一步都面临GUI与Tool的选择。如果模型缺乏路径选择能力,会出现两类典型失败:Tool Underuse——明明有更高效的工具,模型仍偏向GUI操作;Tool Overuse——频繁调用工具,但调用时机或粒度不当,反而降低成功率。论文将其定义为“最优GUI-Tool路径选择”(Optimal GUI-Tool Path Selection)问题。
研究团队在多个主流模型上进行了验证。Qwen3VL-8B几乎不使用工具(平均tool calls仅0.003),加入工具后准确率从29.0%降至28.2%;Qwen3VL-235B虽更倾向于调用工具(平均tool calls达6.10),步骤数从25.9降至17.4,但准确率反而从41.1%降至38.1%。Claude系列同样如此:Claude-4-sonnet加入工具后步骤数从23.6降至19.2,但准确率从47.7%降至43.5%;Claude-4.5-sonnet步骤数从23.3降至19.1,准确率却从61.9%降至48.4%。这些数据表明,混合动作空间的核心难点不在于是否拥有工具,而在于模型能否在GUI和Tool之间做出正确选择。
第一阶段:数据合成与Tool-Bootstrapped RFT
要训练模型进行路径选择,首先需要高质量的“GUI-Tool交错轨迹”(interleaved GUI-Tool trajectories),但现实中这类数据极度稀缺。真实工具接口往往与应用相关、覆盖不完整且维护成本高;收集真实的混合轨迹又需要复杂的环境接入和人工标注。已有GUI数据规模虽大,但只教授点击等操作,未包含何时使用工具的决策。
ToolCUA的第一步是盘活这些GUI-only数据,并完成混合启动(Hybrid Bootstrapping)。研究团队利用多模态大语言模型(MLLM)从已有GUI轨迹中合成“有依据的工具库”(grounded tool library),再将纯GUI轨迹转换为GUI-Tool交错轨迹。整个流程分为三步:从每条GUI轨迹中分析任务目标、动作序列和截图描述,抽象出可调用的工具(如从Chrome设置流程中抽象出chrome_open_language_settings);给定合成工具库和原始GUI轨迹,MLLM生成功能等价的纯工具轨迹,并通过下一状态确认(next-state grounding)验证工具步骤与可见状态变化的一致性;最后,系统随机采样部分工具调用并替换回对应的GUI子序列,形成多种GUI与Tool交错的轨迹。这个过程让模型看到不同工具可用性下的决策边界,并自然产生GUI→Tool和Tool→GUI的关键切换步骤。最终,ToolCUA的数据集包含约4000个独特工具,覆盖细、中、粗多级粒度,约18万步数据用于预热监督微调(warmup SFT),并从关键切换步骤中抽取5000条用于单步强化学习(single-turn RL)。
第二阶段:环境交互下的强化学习
在完成数据合成后,模型进入两阶段训练。第一阶段为预热SFT,在全部数据上学习多模态工具调用知识,包括工具用途、参数、返回结果及执行后的状态变化。随后在关键切换步骤上进行单步RL,通过采样多个完成并借助反馈校准模型在局部边界上的选择。第二阶段则是在真实GUI-Tool环境中进行长程交互(long-horizon rollout),让模型在复杂任务中动态学习何时使用GUI操作、何时调用工具、何时无需调用工具,最终形成更高效、更可靠的执行路径。
这项工作揭示了混合动作空间中路径选择的核心挑战,并提供了从数据合成到两阶段训练的系统性解决方案。ToolCUA-8B在OSWorld-MCP上达到的46.85%准确率,为提升Agent在实际场景中的自主能力提供了可行方向。
本文参考来源:量子位



