Attendre: 基于内存的 Transformer 中的检索式等待以实现长上下文处理

Jan, 2024

Attendre: 基于内存的 Transformer 中的检索式等待以实现长上下文处理

Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing

Zi Yang, Nan Hua

TL;DR使用逐出策略和 Attendre 层，在处理长序列输入时减少内存需求并适应各种架构，以提高 LM 的效果和性能。

Abstract

As llms have become capable of processing more complex types of inputs, researchers have recently studied how to efficiently and affordably process possibly arbitrarily long sequences. One effective approach is to use a FIFO memory to store keys and values of an →

llms attention sublayer bidirectional attention eviction policies attendre layer

发现论文，激发创造

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

大规模语言模型服务的高效内存管理与 PagedAttention

大规模语言模型的高吞吐量通过批处理大量请求实现，本研究提出了 PagedAttention 算法和 vLLM 系统，用于减少关键值缓存（KV cache）内存的浪费和冗余复制，改善系统的吞吐量和内存利用率。

Sep, 2023

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

LaMemo: 带向前存储的语言建模

本文介绍了一种名为 LaMemo 的模型，它通过增量地注意右侧的标记，并与旧的内存状态插值，以维护历史上的长期信息，它将双向注意力和段重复与附加计算开销相结合，只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。

Apr, 2022

SparQ 注意力：高带宽效率的 LLM 推理

通过选择性提取缓存历史记录，使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量，减少注意力块中的内存带宽需求，同时无需修改预训练设置或进行额外的微调，通过在多个下游任务上评估 Llama 2 和 Pythia 模型，展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。

Dec, 2023

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

注意力汇聚的高效流式语言模型

部署大型语言模型（LLMs）在流式应用中的一个研究论文，介绍了两个主要挑战和一个有效的解决方案 StreamingLLM，用于长文本的流式部署，能够在无需微调的情况下实现 LLMs 的稳定和高效的语言建模。

Sep, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021