AI Agent真的记得它看过什么吗?MemEye给多模态长期记忆做了一次“视觉体检” 文章

36kr 资讯2026-05-25NEWSzh作者: 学术头条

摘要

过去一年,AI Agent 的想象空间被不断拉大:它们可以帮我们整理资料、写代码、浏览网页、操作电脑,也开始越来越多地接收图片、截图、照片、视频帧等视觉信息。一个更自然的下一步是:如果 Agent 今天看过我的房间布局、健康仪表盘、牌局截图、商品 Logo、路线照片,它明天还能不能记得? 这个问题听起来简单,但真正落到多模态长期记忆(multimodal long-term memory)里,并不简单。因为“看过”不等于“记住”,“记住”也不等于“以后能用得上”。 很多系统看似拥有多模态记忆,实际做法却是把图片先转成一段文字描述,也就是 caption,然后把 caption 当成普通文本存进记忆库。这样当然很高效,也很便宜。但问题是:图片一旦被压缩成文字,很多细节就再也回不来了。 论文:https://arxiv.org/abs/2605.15128 数据集:https://huggingface.co/datasets/MemEyeBench/MemEye 代码:https://github.com/MinghoKwok/MemEye 一句话概括MemEye MemEye 是一个面向多模态 Agent 长期记忆的视觉中心评测框架(visual-centric evaluation framework)。它想回答的不是“模型能不能看懂一张图”,而是: 当视觉信息分散在很长的多轮对话和多次 session 里,Agent 能不能保留关键视觉证据,并在状态不断变化时选出当前真正有效的信息? 这也是 MemEye 和很多已有 benchmark 的区别:它不是只给模型更多图片,而是专门测试那些“不能只靠文字、不能只靠 caption、不能只靠语义检索蒙过去”的视觉记忆问题。 为何需要新的评测?因为caption hack太容易了 在不少多模态记忆任务中,问题虽然带着图片,但答案可能已经被对话文本、选项暗示,或者粗略 caption 泄漏出来。这样一来,模型看起来像是“记住了图片”,但其实只是记住了文字。 举个简单例子,如果问题是“用户上次上传的是厨房照片还是卧室照片”,那 caption 写一句“这是一张厨房照片”就够了。模型不需要真正保留图片。 但真实场景往往不是这么简单。用户可能会问:…

摘要可能不完整,可查看原文

相关事件

暂无数据

相关公司查看全部 (1)

H

相关人物

暂无数据