DeepSeek成员陈德里用AI Agent写论文人类仅动脑2小时

DeepSeek团队成员陈德里近日在个人博客上发布了一篇研究综述论文。他在文中表示：“1%是我写的，99%是Agent写的。”人类作者仅贡献了约2小时的思考时间，而以往同样的工作至少需要一个月完成。

论文基于DeepSeek-V4-Pro模型进行研究和写作，并借助GPT-Image2完成图表绘制。整个创作过程共迭代6次（V1版本迭代4次，V2和V3各1次），耗时6天，累计进行约108轮Agent调用，消耗64.8万token，最终生成2234行LaTeX代码。论文共引用103篇参考文献（全部经过验证），篇幅为46页、538KB，包含7个图表和4个表格。

自主研究智能体分级框架

该论文的核心贡献是提出了L1至L5的自主研究智能体分级体系，类比于自动驾驶领域的SAE国际标准。这一体系旨在解决当前AI Agent领域缺乏统一分类框架、术语混乱、评估标准不一等问题。

论文将现有自主研究智能体按自主性分为五个等级，目前行业最高达到L4水平，L5完全自主仍处于设想阶段。在此基础上，作者总结了四种主流的智能体架构模式：

单智能体循环模式：以ReAct、Reflexion等为代表，通过迭代推理-行动-观察循环完成任务，简单高效，但复杂任务能力有限，适用于简单短时任务，成本低。
多智能体协作模式：以CAMEL、AutoGen、MetaGPT等为代表，通过分工协作和多视角纠错提升可靠性，成本较高，沟通易混乱。
分层调度模式：以Claude Code、Devin等为代表，通过分层规划和任务分解应对长时程复杂任务，具有强规划、易监管的特点。
工具增强执行模式：以SWE-Agent等为代表，通过代码执行、网页浏览、API等工具扩展能力，其能力边界由工具决定，Agent-Computer Interface（ACI）设计直接影响性能。

论文强调，四种模式各有适用场景，并无绝对优劣。

横向对比与开放问题

基于上述分类框架，论文对当前17个主流自主研究智能体进行了横向对比，从六维特征矩阵（可扩展性、成本、可靠性等维度）展开分析。结果显示，该领域已从早期的通用脆弱原型演进至L4受限域专用系统。其中，代码智能体的成熟度最高，科学智能体已开始产出可验证的新发现。

论文同时指出了向L5完全自主迈进的核心瓶颈：持续知识积累、可靠自我评估、以及架构规模化。此外，还提出了六大开放问题，为后续研究指明了方向。

陈德里认为，Code Agent等因素正导致计算机科学论文数量快速膨胀。他在博客中表示，高强度工作让他搁置了许多写作计划，AI Agent的协助使他能重新捡起这些任务。他同时附上免责声明：论文观点仅代表个人，不代表任何组织。此篇论文连同其个人主页的更新，均借助Agent高效完成。他认为，在Agent辅助下，人类角色已从“执行者”转变为“发起者”。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

DeepSeek成员陈德里用AI Agent撰写研究论文人类仅参与2小时思考

自主研究智能体分级框架

横向对比与开放问题

阿逸

发表回复取消回复

自主研究智能体分级框架

横向对比与开放问题

阿逸

相关文章

AMD MI355X AI显卡实测：288GB显存碾压NVIDIA B200，软件优化弥补互联短板

AI自动撰写WordPress文章的脚本，DeepSeek V3 10秒搞定

DeepSeek 的 10 万亿美元宏图：算法创新如何撬动 AI 硬件生态

发表回复取消回复