DeepSeek团队成员陈德里近日在个人博客上发布了一篇研究综述论文。他在文中表示:“1%是我写的,99%是Agent写的。”人类作者仅贡献了约2小时的思考时间,而以往同样的工作至少需要一个月完成。
论文基于DeepSeek-V4-Pro模型进行研究和写作,并借助GPT-Image2完成图表绘制。整个创作过程共迭代6次(V1版本迭代4次,V2和V3各1次),耗时6天,累计进行约108轮Agent调用,消耗64.8万token,最终生成2234行LaTeX代码。论文共引用103篇参考文献(全部经过验证),篇幅为46页、538KB,包含7个图表和4个表格。
自主研究智能体分级框架
该论文的核心贡献是提出了L1至L5的自主研究智能体分级体系,类比于自动驾驶领域的SAE国际标准。这一体系旨在解决当前AI Agent领域缺乏统一分类框架、术语混乱、评估标准不一等问题。
论文将现有自主研究智能体按自主性分为五个等级,目前行业最高达到L4水平,L5完全自主仍处于设想阶段。在此基础上,作者总结了四种主流的智能体架构模式:
- 单智能体循环模式:以ReAct、Reflexion等为代表,通过迭代推理-行动-观察循环完成任务,简单高效,但复杂任务能力有限,适用于简单短时任务,成本低。
- 多智能体协作模式:以CAMEL、AutoGen、MetaGPT等为代表,通过分工协作和多视角纠错提升可靠性,成本较高,沟通易混乱。
- 分层调度模式:以Claude Code、Devin等为代表,通过分层规划和任务分解应对长时程复杂任务,具有强规划、易监管的特点。
- 工具增强执行模式:以SWE-Agent等为代表,通过代码执行、网页浏览、API等工具扩展能力,其能力边界由工具决定,Agent-Computer Interface(ACI)设计直接影响性能。
论文强调,四种模式各有适用场景,并无绝对优劣。
横向对比与开放问题
基于上述分类框架,论文对当前17个主流自主研究智能体进行了横向对比,从六维特征矩阵(可扩展性、成本、可靠性等维度)展开分析。结果显示,该领域已从早期的通用脆弱原型演进至L4受限域专用系统。其中,代码智能体的成熟度最高,科学智能体已开始产出可验证的新发现。
论文同时指出了向L5完全自主迈进的核心瓶颈:持续知识积累、可靠自我评估、以及架构规模化。此外,还提出了六大开放问题,为后续研究指明了方向。
陈德里认为,Code Agent等因素正导致计算机科学论文数量快速膨胀。他在博客中表示,高强度工作让他搁置了许多写作计划,AI Agent的协助使他能重新捡起这些任务。他同时附上免责声明:论文观点仅代表个人,不代表任何组织。此篇论文连同其个人主页的更新,均借助Agent高效完成。他认为,在Agent辅助下,人类角色已从“执行者”转变为“发起者”。
本文参考来源:量子位
微信扫描下方的二维码阅读本文



