7B打败o3、GPT-5,医学AI智能体让模型学会“看哪里、怎么看” 文章

36kr 资讯2026-05-27NEWSzh作者: 量子位

摘要

医学AI会写解释,但不代表它真的“看到”了关键证据。 过去的医学多模态模型,大多是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。 但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。 而模型“被动接收”视觉上下文时,很容易看错区域、漏看病灶。 为应对这一问题,上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,一口气拿出了两篇 ICML 2026接收论文,首次把Think with Images/Think with Videos范式应用在医学AI领域: 模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。 这意味着,视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。 两篇工作的核心关键词如下: 两篇工作不是孤立模型升级,而是共同提出医学AI的新范式: 让视觉证据进入模型的中间思考过程,把“解释”从事后语言生成推进为推理过程中的证据查证。 △ △ 不是更会“写解释”,而是开始会“用视觉证据思考” 医学AI过去最常见的工作方式,是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。 问题在于,解释看起来完整,并不代表模型真的看到了关键证据。尤其在医学场景里,一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。 Ophiuchus和MedScope共同把这个问题向前推进了一步:多模态模型不再只是“被动接收视觉上下文”,而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段,并把工具返回的观察结果纳入后续推理。 这就是医学AI领域首次被系统化提出的 “think with images/think with videos” 范式:视觉不再只是输入,视觉证据本身成为模型思考过程的一部分。 △ Think with Images:让模型在图像诊断中“重新看一眼” Ophiuchus的切入点非常直接:现有医学多模态大模型虽然能写出逐步推理,但遇到需要细粒度视觉证据的任务时,仍然容易“看错区域、漏看病灶、误把正常结构当异常”。 这不是单纯语言能力不足,而是视觉交互机制不足。

相关事件

暂无数据

相关公司

暂无数据

相关人物

暂无数据