使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

Mar, 2023

使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

High-throughput Generative Inference of Large Language Models with a Single GPU

Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin...

TL;DR本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理，通过提出一种高吞吐量生成引擎 FlexGen，结合线性规划优化器并压缩权重和注意力缓存，成功实现在仅一个 16GB GPU 上运行 OPT-175B，并取得了较高的推理吞吐量。

Abstract

The high computational and memory requirements of large language model (LLM) inference traditionally make it feasible only with multiple high-end accelerators. Motivated by the emerging demand for latency-insensitive tasks with batched processing, this paper initiates the study of high-throughput LLM inference using →

large language model inference limited resources high-throughput generation engine flexgen linear programming optimizer

发现论文，激发创造

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

DeepSpeed-FastGen：基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成

DeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统，相较于 vLLM 等现有系统，在吞吐量上提高了 2.3 倍，平均延迟降低了 2 倍，并且在 token 级别尾延迟降低了最高达 3.7 倍，通过采用 DeepSpeed-MII 和 DeepSpeed-Inference 的协同组合，为 LLMs 提供了高效易用的服务系统。

Jan, 2024

FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

我们提出了 FlexLLM，这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统，通过协同服务的方法，利用共享的 GPU 资源来同时运行这两个任务，FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍，并将微调的整个 GPU 内存要求降低了最多 36％，同时保持了低推理延迟并提高了微调吞吐量。

Feb, 2024

PowerInfer：在消费级 GPU 上快速提供大型语言模型服务

PowerInfer 是一个高速的 GPU-CPU 混合推理引擎，利用大型语言模型 (LLM) 推理中固有的高局部性，并通过预加载热激活的神经元到 GPU 以快速访问、在 CPU 上计算冷激活的神经元，从而显著降低 GPU 内存需求和 CPU-GPU 数据传输，并且通过自适应预测器和神经元感知稀疏操作进一步优化神经元激活和计算稀疏性，评估结果显示，在单个 NVIDIA RTX 4090 GPU 上，PowerInfer 在各种 LLM (包括 OPT-175B) 上实现了平均 13.20 令牌 / 秒的生成速率，峰值为 29.08 令牌 / 秒，仅比顶级服务器级 A100 GPU 低 18%，相比于 llama.cpp 最大提升了 11.69 倍，仍保持着模型精度。

Dec, 2023

Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务

介绍了一种名为 Helix 的分布式系统，用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型（LLM）服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图，使用混合整数线性规划（MILP）算法来发现高度优化的策略，从而联合优化模型放置和请求调度，在几个异构集群设置上的评估结果表明，与现有的最佳方法相比，Helix 将服务吞吐量提高了 2.7 倍，并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。

Jun, 2024

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

FlightLLM: 基于 FPGA 的高效大型语言模型推断及其完整映射流程

该研究论文提出了一种基于 FPGA 的 FlightLLM 方法，通过利用 FPGA 特定资源和创新解决方案，实现了大规模语言模型（LLMs）的高效推理，包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中，该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益，同时在吞吐量方面也超过了 NVIDIA A100 GPU。

Jan, 2024

HLSTransform: 基于高层次综合的 FPGA 上能效优化的 Llama 2 推断

在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器，但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题，我们开发了一种用于 transformers 的加速器 LLama 2，通过高级综合 (HLS) 来在 FPGAs 上进行原型设计。使用 HLS 的方法能够实现对 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比，Xilinx Virtex UltraScale+ VU9P FPGA 每个标记使用的能量减少了 12.75 倍和 8.25 倍，同时相对于 CPU 的推理速度提高了 2.46 倍，相对于 RTX 3090 GPU 的速度保持在 0.53 倍。我们开源了代码并记录了合成的步骤，希望这项工作能够推动 FPGAs 在 transformer 推理中的广泛应用，并激发对于能效推理方法的研究。

Apr, 2024

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023