OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference 文章

ArXiv CS.CL2026-06-01NEWSen作者: Yuzhe Gu, Xiyu Liang, Jiaojiao Zhao, Enmao Diao

查看原文 →

OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference · 相关技术

相关技术

Optimal Brain Damage Optimal Brain Cache