Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务

Jun, 2024

Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务

Helix: Distributed Serving of Large Language Models via Max-Flow on Heterogeneous GPUs

Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia...

TL;DR介绍了一种名为 Helix 的分布式系统，用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型（LLM）服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图，使用混合整数线性规划（MILP）算法来发现高度优化的策略，从而联合优化模型放置和请求调度，在几个异构集群设置上的评估结果表明，与现有的最佳方法相比，Helix 将服务吞吐量提高了 2.7 倍，并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。

Abstract

This paper introduces helix, a distributed system for high-throughput,

helix distributed system high-throughput low-latency large language model

发现论文，激发创造

使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理，通过提出一种高吞吐量生成引擎 FlexGen，结合线性规划优化器并压缩权重和注意力缓存，成功实现在仅一个 16GB GPU 上运行 OPT-175B，并取得了较高的推理吞吐量。

Mar, 2023

混合：利用 GPU 异构性实现高效的大型语言模型服务

大语言模型的部署成本高，数据中心存在 GPU 类型的差异，而 Mélange 框架通过对 GPU 选择和配置进行优化，显著降低了部署成本。

Apr, 2024

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

Llumnix: 大规模语言模型服务的动态调度

Llumnix 是一种用于大型语言模型（LLMs）服务的系统，通过在多个模型实例之间进行运行时重新调度，以应对异构且不可预测的请求，从而改善尾延迟，加快高优先级请求，并实现成本节省。

Jun, 2024

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

大型语言模型推理的硬件评估框架

通过 LLMCompass 硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

Holmes: 面向集群间具有异构 NIC 环境的分布式训练

Holmes 是一个专门为 LLMs 设计的训练框架，通过巧妙构建数据和模型并行策略，在异构 NIC 环境下实现了可扩展性，并在大多数情况下达到接近 RDMA 网络性能的学习效率，同时与其他主流 LLM 框架无缝集成。

Dec, 2023

使用小型 GPU 群集训练一个大型语言模型

该研究提出了一种名为 Elixir 的并行异构训练系统，它在操作符的粒度上生成并行化计划，采用分层分布式内存管理方案以加速 GPU 间通信和 CPU-GPU 数据传输，并且实现了新型模型并行化的灵活性和高效性。

Dec, 2022