DeepSeek成员陈德里用AI Agent撰写研究论文 人类仅参与2小时思考

DeepSeek团队成员陈德里在个人博客发布由AI Agent辅助完成的研究综述论文,99%内容由Agent生成。论文提出L1-L5自主研究分级体系,分析17个主流系统,指出行业前沿已达L4水平。

DeepSeek团队成员陈德里近日在个人博客上发布了一篇研究综述论文。他在文中表示:“1%是我写的,99%是Agent写的。”人类作者仅贡献了约2小时的思考时间,而以往同样的工作至少需要一个月完成。

论文基于DeepSeek-V4-Pro模型进行研究和写作,并借助GPT-Image2完成图表绘制。整个创作过程共迭代6次(V1版本迭代4次,V2和V3各1次),耗时6天,累计进行约108轮Agent调用,消耗64.8万token,最终生成2234行LaTeX代码。论文共引用103篇参考文献(全部经过验证),篇幅为46页、538KB,包含7个图表和4个表格。

论文配图

自主研究智能体分级框架

该论文的核心贡献是提出了L1至L5的自主研究智能体分级体系,类比于自动驾驶领域的SAE国际标准。这一体系旨在解决当前AI Agent领域缺乏统一分类框架、术语混乱、评估标准不一等问题。

论文将现有自主研究智能体按自主性分为五个等级,目前行业最高达到L4水平,L5完全自主仍处于设想阶段。在此基础上,作者总结了四种主流的智能体架构模式:

  • 单智能体循环模式:以ReAct、Reflexion等为代表,通过迭代推理-行动-观察循环完成任务,简单高效,但复杂任务能力有限,适用于简单短时任务,成本低。
  • 多智能体协作模式:以CAMEL、AutoGen、MetaGPT等为代表,通过分工协作和多视角纠错提升可靠性,成本较高,沟通易混乱。
  • 分层调度模式:以Claude Code、Devin等为代表,通过分层规划和任务分解应对长时程复杂任务,具有强规划、易监管的特点。
  • 工具增强执行模式:以SWE-Agent等为代表,通过代码执行、网页浏览、API等工具扩展能力,其能力边界由工具决定,Agent-Computer Interface(ACI)设计直接影响性能。

论文强调,四种模式各有适用场景,并无绝对优劣。

横向对比与开放问题

基于上述分类框架,论文对当前17个主流自主研究智能体进行了横向对比,从六维特征矩阵(可扩展性、成本、可靠性等维度)展开分析。结果显示,该领域已从早期的通用脆弱原型演进至L4受限域专用系统。其中,代码智能体的成熟度最高,科学智能体已开始产出可验证的新发现。

论文同时指出了向L5完全自主迈进的核心瓶颈:持续知识积累、可靠自我评估、以及架构规模化。此外,还提出了六大开放问题,为后续研究指明了方向。

陈德里认为,Code Agent等因素正导致计算机科学论文数量快速膨胀。他在博客中表示,高强度工作让他搁置了许多写作计划,AI Agent的协助使他能重新捡起这些任务。他同时附上免责声明:论文观点仅代表个人,不代表任何组织。此篇论文连同其个人主页的更新,均借助Agent高效完成。他认为,在Agent辅助下,人类角色已从“执行者”转变为“发起者”。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

DeepSeek成员陈德里用AI Agent撰写研究论文 人类仅参与2小时思考 - AI Agent, DeepSeek, DeepSeek V4 Pro, GPT-Image2, L1-L5自主度分类, LaTeX, 学术论文自动化, 自动研究智能体

发表回复