May, 2024

vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理

TL;DR为了解决 GPU 内存的高吞吐量 LLM 推理的问题,该论文提出了 vAttention 的动态 KV-cache 内存管理方法,相较于 PagedAttention 模型,vAttention 在连续虚拟内存中保留 KV-cache,并利用现有的低层系统支持以实现按需物理内存分配。