使用中继注意力实现高效的大型语言模型与长系统提示的服务

Feb, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

RelayAttention for Efficient Large Language Model Serving with Long System Prompts

Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W.H. Lau

TL;DR通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Abstract

Practical large language model (LLM) services may involve a long system prompt, which specifies the instructions, examples, and knowledge documents of the task and is reused across numerous requests. However, the long system prompt causes throughput/latency bottlenecks as the cost of g

large language model system prompt efficiency memory accesses relayattention

发现论文，激发创造

模块化注意力复用技术用于低延迟推理

使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

大规模语言模型服务的高效内存管理与 PagedAttention

大规模语言模型的高吞吐量通过批处理大量请求实现，本研究提出了 PagedAttention 算法和 vLLM 系统，用于减少关键值缓存（KV cache）内存的浪费和冗余复制，改善系统的吞吐量和内存利用率。

Sep, 2023

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

高效稀疏注意力需要自适应令牌释放

通过自适应释放缓存资源和重构必要的键值状态，以实现生成性能的竞争力和高达 221.8% 的吞吐量改善。

Jul, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

系统 2 关注力（您可能也需要）

为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题，我们引入了系统 2 关注（S2A），它利用语言模型推理和遵循指令来决定应该关注什么，并通过重构上下文来提取相关部分，然后关注这个重构上下文来引出最终的响应。在包含观点或无关信息、问答、数学问题和长文生成的三个任务上实验证明，S2A 比基于标准关注的语言模型表现更好，能提高事实性和客观性，并减少阿谀奉承。

Nov, 2023

注意力指令：通过提示增强中间的注意力

扩展大型语言模型的上下文窗口到 128k 个标记或更多，然而，语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题，我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性，我们对基于位置和索引的指令进行了多文档问答任务的全面研究，发现语言模型对上下文的相对位置没有意识，但它们展示了使用匹配索引调整关注于特定片段的能力，我们的分析深化了对 LLM 中位置偏见的理解，并提供了通过指导缓解此偏见的途径，从而使 LLM 在 RAG 应用中定位和利用检索文档中的相关信息。

Jun, 2024

注意力汇聚的高效流式语言模型

部署大型语言模型（LLMs）在流式应用中的一个研究论文，介绍了两个主要挑战和一个有效的解决方案 StreamingLLM，用于长文本的流式部署，能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。

Sep, 2023

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023