用于长上下文大模型的分块并行 Transformer

May, 2023

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer for Long Context Large Models

Hao Liu, Pieter Abbeel

TL;DRBlockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

Abstract

transformers have emerged as the cornerstone of state-of-the-art natural language processing models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands posed by the se

transformers self-attention mechanism natural language processing long sequences memory efficiency

发现论文，激发创造

BP-Transformer：通过二分法建模长距离语境

本文提出了一种基于多尺度跨度和二进制分多方式的 BP-Transformer 模型，该模型在处理长文本时性能优于之前的自注意力模型。

Nov, 2019

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

基于分块的自注意力机制实现长文本理解

BlockBERT 为一个高效的 BERT 模型，引入了稀疏块结构，以更好的建模长距离依赖关系，在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比，BlockBERT 可以节省大约 27.8% 的推理时间，并具有可比甚至更好的预测准确性。

Nov, 2019

基于变形金刚 (Block-wise) 的模型比特压缩

该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Mar, 2023

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

语言建模的张量变换器

本文提出了基于张量分解和参数共享的多线性注意力模型（即 Multi-linear attention）与块状张量分解（Block-Term Tensor Decomposition，BTD）相结合的自注意力模型，该方法在语言建模和神经机器翻译任务中获得了性能改进。与多个语言建模方法（如 Transformer，Transformer-XL 和使用张量训练分解的 Transformer）相比，Multi-linear attention 不仅可以大大压缩模型参数，还可以获得性能提升。

Jun, 2019

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019