BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding 事件

Name: BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding
Start: 2026-06-02

PRODUCT_LAUNCH2026-06-02影响: MEDIUM

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding arXiv:2606.00144v1 Announce Type: cross Abstract: Speculative decoding speeds up autoregressive decoding by using a drafter to propose multiple tokens that a verifier validates in parallel. In resource-constrained deployments, the drafter uses a sparse KV cache to limit peak GPU memory and end-to-end latency under a fixed KV budget, while the verifier keeps a full KV cache. Mid-to-long context inference (4K--16

人工智能

关系图谱

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding 事件

相关公司查看全部 (9)

相关人物查看全部 (2)

相关产品查看全部 (10)

相关技术查看全部 (10)

相关报道查看全部 (1)