7B打败o3、GPT-5，医学AI智能体让模型学会“看哪里、怎么看” 文章

36kr 资讯2026-05-27NEWSzh作者: 量子位

摘要

医学AI会写解释，但不代表它真的“看到”了关键证据。过去的医学多模态模型，大多是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。而模型“被动接收”视觉上下文时，很容易看错区域、漏看病灶。为应对这一问题，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，一口气拿出了两篇 ICML 2026接收论文，首次把Think with Images/Think with Videos范式应用在医学AI领域：模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。两篇工作的核心关键词如下：两篇工作不是孤立模型升级，而是共同提出医学AI的新范式：让视觉证据进入模型的中间思考过程，把“解释”从事后语言生成推进为推理过程中的证据查证。 △ △ 不是更会“写解释”，而是开始会“用视觉证据思考” 医学AI过去最常见的工作方式，是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。问题在于，解释看起来完整，并不代表模型真的看到了关键证据。尤其在医学场景里，一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。 Ophiuchus和MedScope共同把这个问题向前推进了一步：多模态模型不再只是“被动接收视觉上下文”，而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段，并把工具返回的观察结果纳入后续推理。这就是医学AI领域首次被系统化提出的 “think with images/think with videos” 范式：视觉不再只是输入，视觉证据本身成为模型思考过程的一部分。 △ Think with Images：让模型在图像诊断中“重新看一眼” Ophiuchus的切入点非常直接：现有医学多模态大模型虽然能写出逐步推理，但遇到需要细粒度视觉证据的任务时，仍然容易“看错区域、漏看病灶、误把正常结构当异常”。这不是单纯语言能力不足，而是视觉交互机制不足。

7B打败o3、GPT-5，医学AI智能体让模型学会“看哪里、怎么看” 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (4)

相关技术查看全部 (7)