闪电关注 - 2:在大型语言模型中处理无限序列长度的免费午餐
我们提出了闪电注意力(Lightning Attention),这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。
May, 2024
在传统的 transformer 模型中,标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法,将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用,通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比,标准的下一个记号预测的时间复杂度与序列长度成线性关系,而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
Feb, 2024
本论文提出了一种线性统一嵌套注意力机制 Luna,它用两个嵌套的线性注意力函数来逼近 Softmax 注意力机制,从而实现了仅线性时间和空间复杂度。该方法在长序列建模任务、神经机器翻译和大规模预训练掩码语言建模等多个领域性能优异且高效。
Jun, 2021
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
我们提出了一种名为 “BurstAttention” 的分布式注意力框架,通过在全局集群和本地设备级别上优化内存访问和通信操作,相比于竞争的基准线,在处理长序列时减少 40% 的通信开销,训练 32K 序列长度时实现 2 倍加速。
Mar, 2024
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
LongNet 是 Transformer 的一种变体,引入了扩张注意力(dilated attention)来扩展序列长度,使其能够处理超过 10 亿个标记的序列,同时不会牺牲短序列的性能表现。
Jul, 2023
传统的 Transformer 架构由于内存需求限制了其处理长序列的能力,而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式,提高了内存利用效率,允许处理更长的输入序列,从而消除了设备内存的限制,同时在语言建模任务上取得了显著的性能提升。
Oct, 2023
通过采用分层和分块思想,我们提出了 CHELA(硬件高效的短长卷积与线性注意力)来解决线性注意力在因果设置下仅保持在理论层面的问题,同时通过替换状态空间模型(SSMs)为短长卷积,实现了稳定的 SSMs,保持真正的线性复杂度。通过对 Long Range Arena 基准和语言建模任务的综合实验,我们证明了所提方法的有效性。
Jun, 2024
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022