AI Agent真的记得它看过什么吗？MemEye给多模态长期记忆做了一次“视觉体检” 文章

36kr 资讯2026-05-25NEWSzh作者: 学术头条

摘要

过去一年，AI Agent 的想象空间被不断拉大：它们可以帮我们整理资料、写代码、浏览网页、操作电脑，也开始越来越多地接收图片、截图、照片、视频帧等视觉信息。一个更自然的下一步是：如果 Agent 今天看过我的房间布局、健康仪表盘、牌局截图、商品 Logo、路线照片，它明天还能不能记得？这个问题听起来简单，但真正落到多模态长期记忆（multimodal long-term memory）里，并不简单。因为“看过”不等于“记住”，“记住”也不等于“以后能用得上”。很多系统看似拥有多模态记忆，实际做法却是把图片先转成一段文字描述，也就是 caption，然后把 caption 当成普通文本存进记忆库。这样当然很高效，也很便宜。但问题是：图片一旦被压缩成文字，很多细节就再也回不来了。论文：https://arxiv.org/abs/2605.15128 数据集：https://huggingface.co/datasets/MemEyeBench/MemEye 代码：https://github.com/MinghoKwok/MemEye 一句话概括MemEye MemEye 是一个面向多模态 Agent 长期记忆的视觉中心评测框架（visual-centric evaluation framework）。它想回答的不是“模型能不能看懂一张图”，而是：当视觉信息分散在很长的多轮对话和多次 session 里，Agent 能不能保留关键视觉证据，并在状态不断变化时选出当前真正有效的信息？这也是 MemEye 和很多已有 benchmark 的区别：它不是只给模型更多图片，而是专门测试那些“不能只靠文字、不能只靠 caption、不能只靠语义检索蒙过去”的视觉记忆问题。为何需要新的评测？因为caption hack太容易了在不少多模态记忆任务中，问题虽然带着图片，但答案可能已经被对话文本、选项暗示，或者粗略 caption 泄漏出来。这样一来，模型看起来像是“记住了图片”，但其实只是记住了文字。举个简单例子，如果问题是“用户上次上传的是厨房照片还是卧室照片”，那 caption 写一句“这是一张厨房照片”就够了。模型不需要真正保留图片。但真实场景往往不是这么简单。用户可能会问：…

摘要可能不完整，可查看原文

AI Agent真的记得它看过什么吗？MemEye给多模态长期记忆做了一次“视觉体检” 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (2)

相关技术查看全部 (3)