使用完全流水线分布式变换器训练超长上下文语言模型

Aug, 2024

使用完全流水线分布式变换器训练超长上下文语言模型

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Aamir Shafi...

TL;DR该研究解决了在有限GPU资源和内存下，训练具备超长上下文能力的大型语言模型（LLMs）面临的高成本和复杂性问题。作者提出了一种新的完全流水线分布式变换器（FPDT）方法，该方法能够高效训练长上下文LLMs，并在相同硬件上实现序列长度的16倍增长。该方法在多个LLM模型上显示出卓越的训练效率，潜在地降低了训练成本并提升了可扩展性。

Abstract

Large Language Models (LLMs) with Long Context capabilities are integral to complex tasks in natural language processing and computational biology, such as text generation and protein sequence analysis. However,

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法，并且通过在WikiText103，LAMBADA和RACE数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

探究有效扩展Transformer用于长输入摘要

本文研究了使用预训练Transformer模型进行长输入摘要所面临的挑战，并通过实验提出了一种新的模型PEGASUS-X，在不需要并行训练和添加很多参数的情况下，能够高效地处理长度超过常规预训练模型最大输入长度的输入，并在长输入摘要任务中达到了比较强的性能表现。

Aug, 2022

LM-Infinite：大语言模型的简易即时长度泛化

基于Transformer的大型语言模型存在长度泛化问题，传统的预训练模式需要耗费大量时间和资源进行解决，本研究提出了一种简单而有效的解决方案LM-Infinite，不需要参数更新或学习，具有计算效率高且生成质量好的特点，在长序列上有较之前的模型更好的表现。

Aug, 2023

DeepSpeed Ulysses：极长序列Transformer模型训练的系统优化

DeepSpeed-Ulysses是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses在4倍较长的序列长度下比现有方法提供了2.5倍的训练速度。

Sep, 2023

LightSeq：面向长上下文Transformer的分布式训练的序列级并行

LightSeq是一种新的方法，用于长上下文大语言模型(LLMs)的训练，在流行的LLMs上比Megatron-LM通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

在长上下文大语言模型中推进Transformer架构的综合调查

该研究论文主要针对基于Transformer的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

CSPS：基于序列并行的通信高效Transformer模型服务系统

本研究针对现有长序列生成模型在处理长提示时存在的高首字母延迟(Time-To-First-Token)和低吞吐量问题，提出了一种基于序列并行的新架构。通过引入通信高效稀疏注意力和三阶段流水线，显著提升了响应时间和处理效率，使得在维持准确率的同时，提升了整体性能。

Sep, 2024

小小的改进可带来巨大效益：基于部分上下文的高效长上下文训练与推理

本研究解决了训练和服务长上下文大语言模型（LLMs）时的高开销问题。提出的LongGen方法将上下文长度扩展与GPU友好的KV缓存减少架构相结合，显著提高了长上下文的表现和训练效率，展现了在128K长上下文下的训练加速和内存节省的显著成果。

Oct, 2024

大型语言模型推理加速：全面的硬件视角

本研究针对大型语言模型（LLM）推理效率不足的问题，通过对不同硬件平台的综合调查，提出多种优化方法，以提升生成式LLM的推理性能。论文的关键发现是，比对不同硬件平台的推理性能，可以为未来的生成式LLM与硬件技术的发展提供重要的指导。

Oct, 2024