BriefGPT.xyz
Ask
alpha
关键词
pagedattention
搜索结果 - 2
vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理
为了解决 GPU 内存的高吞吐量 LLM 推理的问题,该论文提出了 vAttention 的动态 KV-cache 内存管理方法,相较于 PagedAttention 模型,vAttention 在连续虚拟内存中保留 KV-cache,并利
→
PDF
2 months ago
大规模语言模型服务的高效内存管理与 PagedAttention
大规模语言模型的高吞吐量通过批处理大量请求实现,本研究提出了 PagedAttention 算法和 vLLM 系统,用于减少关键值缓存(KV cache)内存的浪费和冗余复制,改善系统的吞吐量和内存利用率。
PDF
10 months ago
Prev
Next