vAttention：为无需 PagedAttention 的 LLM 提供动态内存管理

May, 2024

vAttention：为无需 PagedAttention 的 LLM 提供动态内存管理

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar

TL;DR为了解决 GPU 内存的高吞吐量 LLM 推理的问题，该论文提出了 vAttention 的动态 KV-cache 内存管理方法，相较于 PagedAttention 模型，vAttention 在连续虚拟内存中保留 KV-cache，并利用现有的低层系统支持以实现按需物理内存分配。

Abstract

Efficient use of gpu memory is essential for high throughput llm inference. Prior systems reserved memory for the KV-cache ahead-of-time, resulting in wasted capacity due to internal fragmentation. Inspired by OS

gpu memory llm inference dynamic memory allocation vattention pagedattention

发现论文，激发创造

大规模语言模型服务的高效内存管理与 PagedAttention

大规模语言模型的高吞吐量通过批处理大量请求实现，本研究提出了 PagedAttention 算法和 vLLM 系统，用于减少关键值缓存（KV cache）内存的浪费和冗余复制，改善系统的吞吐量和内存利用率。

Sep, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Apr, 2024

ChunkAttention: 具有前缀感知 KV 缓存和两阶段划分的高效自注意力

通过引入 ChunkAttention，我们设计了一种前缀感知的自注意力模块，可以在运行时检测到多个请求之间匹配的前缀，并共享它们的键 / 值张量以提高 KV 缓存的内存利用率。通过将单片键 / 值张量分解成较小的块并将它们结构化到辅助前缀树中，我们在基于前缀树的 KV 缓存之上设计了一个高效的自注意力内核，实现了在存在共享系统提示的情况下改善自注意力计算中的数据局部性。实验证明，与现有最先进的实现相比，ChunkAttention 可以将自注意力内核加速 3.2-4.8 倍，且系统提示的长度范围为 1024 至 4096。

Feb, 2024

简单线性注意力语言模型平衡召回 - 吞吐量的权衡

通过应用实验和理论到广泛的架构上，我们发现语言模型的状态大小与召回能力之间存在关键权衡。我们提出了一种名为 BASED 的简单架构，结合了线性和滑动窗口的注意力机制，通过改变窗口大小和线性注意力特征维度，我们可以在召回 - 内存权衡曲线的帕累托边界上调整状态大小。我们训练了多达 13 亿参数的语言模型，并表明 BASED 在困惑度上与最强的次二次模型相匹配，在现实世界的召回密集型任务中，其准确性超过了它们 6.22 个百分点。

Feb, 2024

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

神经语言建模中短暂的注意力问题

本论文提出了一种有键 - 值注意机制的神经语言模型，能够输出不同的 key 和 value 表示，同时对下一个单词的分布进行编码，比现有的基于记忆的、神经语言模型表现更好，但发现该方法主要利用最近五个输出表示的记忆。

Feb, 2017

注意力汇聚的高效流式语言模型

部署大型语言模型（LLMs）在流式应用中的一个研究论文，介绍了两个主要挑战和一个有效的解决方案 StreamingLLM，用于长文本的流式部署，能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。

Sep, 2023