近日,上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,在ICML 2026上发表两篇论文,提出“Think with Images/Think with Videos”范式,将医学AI从被动解释推进到主动视觉推理。基于7B参数的模型在多项基准上超越o3、GPT-5等通用模型,标志着医学AI Agent的关键拐点。

传统医学多模态模型通常将影像或视频编码为视觉特征,再由大模型生成答案与解释。然而,解释的完整性并不等同于模型真正“看到”关键证据——微小病灶、边界变化、手术动作等细节极易被忽略。被动接收视觉上下文导致看错区域、漏看病灶的问题普遍存在。
两个核心系统:Ophiuchus与MedScope
Ophiuchus:医学图像的“审视”智能体
Ophiuchus将大语言模型改造为能与视觉工具协同的智能体。它根据推理状态自主决定是否调用外部工具,如SAM2进行精细分割、BiomedParse进行结构解析,并将工具输出作为证据纳入推理链。这种方式让模型学会“看哪里、怎么看、看完如何修正”,而非依赖一次性编码。在8个VQA benchmark和工具使用准确性评估中,Ophiuchus均取得领先成绩。
MedScope:临床长视频的时序推理
MedScope将同一范式拓展至长视频场景。它模拟临床医生观察方式:先快速建立全局理解,再回到可疑时间窗,用视觉工具获取关键帧,再将局部观察整合到推理链中。其Visual CoT轨迹使推理过程可追溯——不仅看模型“说什么”,还能看它“看了哪里”。团队构建了ClinVideoSuite数据合成管线,并采用GA-GRPO强化学习方法训练。在SVU-31K、ClinVideo-Eval等评测中,MedScope在多粒度视频理解、细粒度时序推理及grounded VQA上取得开源模型中的最佳表现。
从语言生成到证据查证
两篇工作的共同意义在于:视觉不再只是输入,而是模型思考过程的一部分。临床视觉推理天然具有循环特征,医生会反复观察、放大、回溯关键区域。Think with Images/Videos范式让医学AI向这种真实认知方式靠近,在模型内部建立“假设—检索—验证—修正”的循环。这为临床可信AI提供了证据可追溯、操作可解释、过程可纠错的能力基础。
从Ophiuchus到MedScope,可以看到医学多模态大模型正在从“看图回答问题”转向“在推理过程中持续观察、主动搜索证据”。当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据时,医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。
本文参考来源:量子位
微信扫描下方的二维码阅读本文


