CSPS:基于序列并行的通信高效Transformer模型服务系统
本文设计了名为TurboTransformers的transformer服务系统,包括计算运行时和服务框架,能够以很少的代码集成到PyTorch中,在GPU平台上实现最先进的transformer模型服务性能。
Oct, 2020
本文旨在研究如何利用有限的GPU资源进行高吞吐量的大语言模型推理,通过提出一种高吞吐量生成引擎FlexGen,结合线性规划优化器并压缩权重和注意力缓存,成功实现在仅一个16GB GPU上运行OPT-175B,并取得了较高的推理吞吐量。
Mar, 2023
文中提出S^3模型,通过预测输出序列长度、调度并发任务、处理预测失误等手段,提高生成大型语言模型所需内存利用率,比那些假定最长输出序列的系统的吞吐量提高了6.49倍。
Jun, 2023
DeepSpeed-Ulysses是一种新颖、可移植和有效的方法,用于实现高效且可扩展的长序列大型语言模型的训练,包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示,DeepSpeed-Ulysses在4倍较长的序列长度下比现有方法提供了2.5倍的训练速度。
Sep, 2023
通过使用预测值,基于Transformer架构的生成式大型语言模型(SPEED)能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
Oct, 2023
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个GPU上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在Wikipedia enwik8数据集上,我们的方法在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率,且在3,456个GPU上可扩展到长度达到50,112的极限序列,实现了161%的超线性并行效率和32 petaflops的吞吐量。
Nov, 2023
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量,在Intel GPU上相对于标准HuggingFace实现,能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。
Dec, 2023
提出了一种弹性序列并行性(ESP)的新并行策略,以适应大语言模型(LLMs)的不同请求和不同阶段之间的差异,并设计构建了一个名为LoongServe的LLM服务系统,该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化,从而提高计算效率、通信效率和GPU内存性能。评估结果表明,与分块预填充和预填充解耦相比,LoongServe最大吞吐量提高了3.85倍和5.81倍。
Apr, 2024
通过比较序列并行性的通信和内存成本,本文提出了一种统一的序列并行性方法,适用于Transformer模型架构和网络硬件拓扑,实现了对长序列的生成AI模型的更好性能。
May, 2024
该研究解决了在有限GPU资源和内存下,训练具备超长上下文能力的大型语言模型(LLMs)面临的高成本和复杂性问题。作者提出了一种新的完全流水线分布式变换器(FPDT)方法,该方法能够高效训练长上下文LLMs,并在相同硬件上实现序列长度的16倍增长。该方法在多个LLM模型上显示出卓越的训练效率,潜在地降低了训练成本并提升了可扩展性。
Aug, 2024