May, 2024
vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理
vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar
TL;DR为了解决 GPU 内存的高吞吐量 LLM 推理的问题,该论文提出了 vAttention 的动态 KV-cache 内存管理方法,相较于 PagedAttention 模型,vAttention 在连续虚拟内存中保留 KV-cache,并利用现有的低层系统支持以实现按需物理内存分配。