BriefGPT.xyz
Ask
alpha
关键词
dynamic memory allocation
搜索结果 - 1
vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理
为了解决 GPU 内存的高吞吐量 LLM 推理的问题,该论文提出了 vAttention 的动态 KV-cache 内存管理方法,相较于 PagedAttention 模型,vAttention 在连续虚拟内存中保留 KV-cache,并利
→
PDF
2 months ago
Prev
Next