近无限背景下的分块 Transformer 环形注意力
Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.
May, 2023
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024
通过在转换模型中引入 Ring Attention 和 Striped Attention 算法,能够解决设备内存瓶颈和工作负载不均衡问题,实现了在 256k 和 786k 序列长度下分别提高 1.45 倍和 1.65 倍的端到端吞吐量。
Nov, 2023
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
本论文提出一种新方法,使用地标标记来代表输入的每个块,并通过训练使注意力选择相关块,从而使我们可以访问完整的上下文并保留随机访问灵活性。 该方法与专用数据结构和系统的内存层次结构无缝集成,可以处理任意长度的上下文长度。
May, 2023
当前语言模型在理解不易用文字描述的世界方面存在不足,并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模,在人类文本知识和物理世界方面形成了深入的理解,从而实现了更广泛的人工智能能力。
Feb, 2024
Transformers 在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算 attention 的方法,引入了名为 Aaren 的 attention-based 模块,使其能够像 Transformers 一样并行训练,同时像传统的 RNN 一样高效地更新新的 tokens,从而在多个序列问题上取得了可比较的性能,同时具有更高的时间和内存效率。
May, 2024
我们提出了一种名为 “BurstAttention” 的分布式注意力框架,通过在全局集群和本地设备级别上优化内存访问和通信操作,相比于竞争的基准线,在处理长序列时减少 40% 的通信开销,训练 32K 序列长度时实现 2 倍加速。
Mar, 2024
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024