近无限背景下的分块 Transformer 环形注意力

Oct, 2023

近无限背景下的分块 Transformer 环形注意力

Ring Attention with Blockwise Transformers for Near-Infinite Context

Hao Liu, Matei Zaharia, Pieter Abbeel

TL;DR传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Abstract

transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by transformers

transformers ring attention long sequences memory efficiency language modeling

发现论文，激发创造

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

条纹注意力：用于因果性变形器的更快环形注意力

通过在转换模型中引入 Ring Attention 和 Striped Attention 算法，能够解决设备内存瓶颈和工作负载不均衡问题，实现了在 256k 和 786k 序列长度下分别提高 1.45 倍和 1.65 倍的端到端吞吐量。

Nov, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

百万长度视频和语言的环形注意力世界模型

当前语言模型在理解不易用文字描述的世界方面存在不足，并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模，在人类文本知识和物理世界方面形成了深入的理解，从而实现了更广泛的人工智能能力。

Feb, 2024

注意力作为一个 RNN

Transformers 在序列建模中取得了重大突破，但计算开销较大，本文提出了一种新的高效计算 attention 的方法，引入了名为 Aaren 的 attention-based 模块，使其能够像 Transformers 一样并行训练，同时像传统的 RNN 一样高效地更新新的 tokens，从而在多个序列问题上取得了可比较的性能，同时具有更高的时间和内存效率。

May, 2024

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Mar, 2024

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024