超级关注力：近线性时间的长篇长文本关注力

Oct, 2023

超级关注力：近线性时间的长篇长文本关注力

HyperAttention: Long-context Attention in Near-Linear Time

Insu Han, Rajesh Jarayam, Amin Karbasi, Vahab Mirrokni, David P. Woodruff...

TL;DR我们提出了一个名为 HyperAttention 的近似注意力机制，用于解决大型语言模型（LLMs）中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度，我们能够实现线性时间采样算法，即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计，容易集成其他快速底层实现，特别是 FlashAttention。实证上，通过利用局部敏感哈希（LSH）来识别大条目，HyperAttention 优于现有方法，在与 FlashAttention 等最先进解决方案相比，获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能，例如，ChatGLM2 的推理时间得以加快 50％，而困惑度从 5.6 增加到 6.3。对于更大的上下文长度，例如 131k，并采取因果屏蔽，HyperAttention 在单个注意层上实现了 5 倍的加速。

Abstract

We present an approximate attention mechanism named hyperattention to address the computational challenges posed by the growing complexity

hyperattention large language models computational challenges attention mechanism speed improvements

发现论文，激发创造

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

通过正交内存实现线性关注

通过使用正交内存（LAVO），我们提出了线性注意力方法的一种改进，通过正交分解将上下文压缩为固定大小的正交内存，同时最小化上下文中的冗余，并通过嵌入相对位置编码来改善外推能力。实验证明，LAVO 极大地提高了因果语言模型的效率，并在最佳外推性能上优于其他高效方法。

Dec, 2023

LongHeads：多头注意力暗地里是一个长上下文处理器

通过解锁多头注意力的潜力，我们提出了一个无需额外训练的框架 LongHeads，以增强大语言模型（LLMs）在处理长篇输入方面的能力，通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记，同时不同层的不同头可以共同处理更长的上下文，有效地扩展了现有模型的可用上下文窗口，展示了对增强长文本理解的潜力。

Feb, 2024

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

LongLoRA: 长文本大语言模型的高效微调

LongLoRA 是一种高效的微调方法，通过有限的计算成本扩展了预训练大型语言模型（LLMs）的上下文大小。

Sep, 2023

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

超长词注意力近似的一遍流式算法在亚线性空间中

部署大型语言模型在涉及长文本的流式应用中面临着内存消耗和时间复杂度的挑战。本文介绍了一种新的算法，通过节约存储空间并保持较低的错误率，在流式应用中高效地处理大型语言模型。

Nov, 2023