LoongServe：高效提供弹性序列并行性的长上下文大模型

Apr, 2024

LoongServe：高效提供弹性序列并行性的长上下文大模型

LoongServe: Efficiently Serving Long-context Large Language Models with Elastic Sequence Parallelism

Bingyang Wu, Shengyu Liu, Yinmin Zhong, Peng Sun, Xuanzhe Liu...

TL;DR提出了一种弹性序列并行性（ESP）的新并行策略，以适应大语言模型（LLMs）的不同请求和不同阶段之间的差异，并设计构建了一个名为 LoongServe 的 LLM 服务系统，该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化，从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明，与分块预填充和预填充解耦相比，LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。

Abstract

The context window of large language models (LLMs) is rapidly increasing, leading to a huge variance in resource usage between different requests as well as between different phases of the same request. Restricte

large language models resource usage parallelism computation efficiency llm serving system

发现论文，激发创造

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

长文本生成 AI 的统一序列并行算法

通过比较序列并行性的通信和内存成本，本文提出了一种统一的序列并行性方法，适用于 Transformer 模型架构和网络硬件拓扑，实现了对长序列的生成 AI 模型的更好性能。

May, 2024

FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

我们提出了 FlexLLM，这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统，通过协同服务的方法，利用共享的 GPU 资源来同时运行这两个任务，FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍，并将微调的整个 GPU 内存要求降低了最多 36％，同时保持了低推理延迟并提高了微调吞吐量。

Feb, 2024

SpotServe: 在可中途终止的实例上为生成式大型语言模型提供服务

通过使用可中止的 GPU 实例来降低大型语言生成模型的运行成本，本文提出了 SpotServe，一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法，并引入了基于状态的推断恢复机制，从而大幅降低 P99 尾延迟，并节省 54％的运行成本。

Nov, 2023

DeepSpeed Ulysses：极长序列 Transformer 模型训练的系统优化

DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。

Sep, 2023

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

并行上下文编码的长文本语言建模

通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Feb, 2024

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023