7B参数医学AI智能体主动寻证，超越o3/GPT-5？ICML 2026论文提出新范式

近日，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，在ICML 2026上发表两篇论文，提出“Think with Images/Think with Videos”范式，将医学AI从被动解释推进到主动视觉推理。基于7B参数的模型在多项基准上超越o3、GPT-5等通用模型，标志着医学AI Agent的关键拐点。

医学AI新范式：7B参数智能体主动寻证，超越o3/GPT-5 - ICML 2026, LeapQuest, MedScope, Ophiuchus, Think with Images, 上海创智学院, 医学AI智能体, 视觉推理

传统医学多模态模型通常将影像或视频编码为视觉特征，再由大模型生成答案与解释。然而，解释的完整性并不等同于模型真正“看到”关键证据——微小病灶、边界变化、手术动作等细节极易被忽略。被动接收视觉上下文导致看错区域、漏看病灶的问题普遍存在。

两个核心系统：Ophiuchus与MedScope

Ophiuchus：医学图像的“审视”智能体

Ophiuchus将大语言模型改造为能与视觉工具协同的智能体。它根据推理状态自主决定是否调用外部工具，如SAM2进行精细分割、BiomedParse进行结构解析，并将工具输出作为证据纳入推理链。这种方式让模型学会“看哪里、怎么看、看完如何修正”，而非依赖一次性编码。在8个VQA benchmark和工具使用准确性评估中，Ophiuchus均取得领先成绩。

MedScope：临床长视频的时序推理

MedScope将同一范式拓展至长视频场景。它模拟临床医生观察方式：先快速建立全局理解，再回到可疑时间窗，用视觉工具获取关键帧，再将局部观察整合到推理链中。其Visual CoT轨迹使推理过程可追溯——不仅看模型“说什么”，还能看它“看了哪里”。团队构建了ClinVideoSuite数据合成管线，并采用GA-GRPO强化学习方法训练。在SVU-31K、ClinVideo-Eval等评测中，MedScope在多粒度视频理解、细粒度时序推理及grounded VQA上取得开源模型中的最佳表现。

从语言生成到证据查证

两篇工作的共同意义在于：视觉不再只是输入，而是模型思考过程的一部分。临床视觉推理天然具有循环特征，医生会反复观察、放大、回溯关键区域。Think with Images/Videos范式让医学AI向这种真实认知方式靠近，在模型内部建立“假设—检索—验证—修正”的循环。这为临床可信AI提供了证据可追溯、操作可解释、过程可纠错的能力基础。

从Ophiuchus到MedScope，可以看到医学多模态大模型正在从“看图回答问题”转向“在推理过程中持续观察、主动搜索证据”。当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据时，医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。

本文参考来源：量子位

微信扫描下方的二维码阅读本文

医学AI新范式：7B参数智能体主动寻证，超越o3/GPT-5

两个核心系统：Ophiuchus与MedScope

Ophiuchus：医学图像的“审视”智能体

MedScope：临床长视频的时序推理

从语言生成到证据查证

阿逸

发表回复取消回复

两个核心系统：Ophiuchus与MedScope

Ophiuchus：医学图像的“审视”智能体

MedScope：临床长视频的时序推理

从语言生成到证据查证

阿逸

相关文章

DeepSeek AI 用指向机制取代文本描述，视觉 Token 消耗减少 90%

发表回复取消回复