内存暴降50倍且精度无损，MIT提出注意力匹配，能终结大模型显存危机吗？文章

36kr 资讯2026-06-01NEWSzh作者: 机器之心

摘要

想象这样一个场景：你正盯着屏幕，看着你的自主 AI 智能体（比如 OpenClaw）疯狂地运作。它正在自主审查一个包含数十万行代码的史诗级开源项目，穿梭于无数的文件、API 文档和调试日志之间。它表现得像一个不知疲倦的超级程序员，但在这「无所不能」的表象之下，潜伏着一个随时可能引爆的硬件梦魇 —— 随着上下文变得越来越长，大模型的「工作记忆」正在暴涨，像一个无底洞一样，无情地吞噬着昂贵的 GPU 显存池！这个令所有企业级 AI 开发者闻风丧胆的显存杀手，就是KV Cache。但现在，解决方案来了，来自麻省理工学院（MIT）的研究团队（Adam Zweiger、Xinghong Fu 等人）。他们开发出了一种名为「注意力匹配」（Attention Matching）的全新潜在空间（Latent Space）压缩技术。论文标题：Fast KV Compaction via Attention Matching 论文地址：https://arxiv.org/pdf/2602.16284 代码地址：https://github.com/adamzweiger/compaction 其能够在短短几秒钟内，将大型语言模型的上下文内存疯狂压缩高达50倍，且几乎没有任何精度损失！这意味着原本需要一整个 H100 GPU 阵列才能勉强支撑的超长对话或巨型文档分析任务，现在可能只需要单张显卡就能轻松跑满并发。一场关于 AI 基础设施的效率革命，似乎已悄然打响。昂贵的工作记忆，大模型的阿喀琉斯之踵要理解这项技术有多么逆天，我们必须先直视大模型的软肋。 LLM 是自回归的，它们生成回答时是逐 token 往外吐的。为了避免在预测每一个新词时，都要把长达几万字的聊天记录从头到尾重新计算一遍，模型必须将之前处理过的每一个 token 的「数学灵魂」缓存起来 —— 这些被提取出来的多维向量，就是「键（Key）」和「值（Value）」对，即 KV Cache。随着上下文的拉伸，这层工作记忆会不可逆转地膨胀。在现代企业级应用中，比如分析成百上千页的法律合同、维持长达数月的私人 AI 伴侣记忆，或者运行 OpenClaw 这样的自治编码智能体，单单一个用户的请求，其 KV Cache 就能瞬间飙升到数十 GB。

内存暴降50倍且精度无损，MIT提出注意力匹配，能终结大模型显存危机吗？文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (2)

相关产品查看全部 (2)

相关技术查看全部 (3)

内存暴降50倍且精度无损，MIT提出注意力匹配，能终结大模型显存危机吗？ 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物查看全部 (2)

相关产品查看全部 (2)

相关技术查看全部 (3)

内存暴降50倍且精度无损，MIT提出注意力匹配，能终结大模型显存危机吗？文章