LongNet: 将 Transformer 扩展到 10 亿个标记

Jul, 2023

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang...

TL;DRLongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Abstract

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence len

longnet transformer sequence length dilated attention computational complexity

发现论文，激发创造

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

PoNet: 长序列中高效的令牌混合池化网络

本文提出了一种新的 Pooling Network (PoNet)，它使用线性复杂度的 token mixing 处理长序列，通过多粒度池化和池化融合来捕获不同级别的上下文信息，并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中，PoNet 显著优于 Transformer，同时实现与最快模型 FNet 相当的准确性，在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究，证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。

Oct, 2021

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

LongT5: 高效的长序列文本转换器

本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Dec, 2021

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023