PowerInfer：在消费级 GPU 上快速提供大型语言模型服务

Dec, 2023

PowerInfer：在消费级 GPU 上快速提供大型语言模型服务

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Yixin Song, Zeyu Mi, Haotong Xie, Haibo Chen

TL;DRPowerInfer 是一个高速的 GPU-CPU 混合推理引擎，利用大型语言模型 (LLM) 推理中固有的高局部性，并通过预加载热激活的神经元到 GPU 以快速访问、在 CPU 上计算冷激活的神经元，从而显著降低 GPU 内存需求和 CPU-GPU 数据传输，并且通过自适应预测器和神经元感知稀疏操作进一步优化神经元激活和计算稀疏性，评估结果显示，在单个 NVIDIA RTX 4090 GPU 上，PowerInfer 在各种 LLM (包括 OPT-175B) 上实现了平均 13.20 令牌 / 秒的生成速率，峰值为 29.08 令牌 / 秒，仅比顶级服务器级 A100 GPU 低 18%，相比于 llama.cpp 最大提升了 11.69 倍，仍保持着模型精度。

Abstract

This paper introduces powerinfer, a high-speed large language model (LLM) inference engine on a personal computer (PC) equipped with a single consumer-grade GPU. The key underlying the design of →

powerinfer large language model gpu-cpu hybrid inference engine neuron activation token generation rate

发现论文，激发创造

PowerInfer-2：智能手机上快速的大型语言模型推断

PowerInfer-2 是一个为智能手机上的大型语言模型（LLM）进行高速推断而设计的框架，通过将传统的矩阵计算分解为细粒度的神经元集群计算，利用智能手机中的异构计算、内存和 I/O 资源，实现了多样的计算策略，减少了 I/O 操作带来的开销。在两部智能手机上的实现和评估表明，相比于现有的框架，PowerInfer-2 实现了高达 29.2 倍的速度提升，并且是第一个在智能手机上具有 11.68 tokens 每秒生成速率的 TurboSparse-Mixtral-47B 模型服务的系统。对于完全适合内存的模型，PowerInfer-2 可以实现大约 40% 的内存使用减少，并且维持与 llama.cpp 和 MLC-LLM 相当的推断速度。

Jun, 2024

在 CPU 上加速大型语言模型的推断

利用 CPU 加速大型语言模型推理的并行化方法提高吞吐量，通过利用现代 CPU 体系结构的并行处理能力和批处理推理请求，与多个工作程序在同一设备上运行以进行更多的吞吐量改进，可以减少 LLM 的功耗约 48.9％，并提供具备生产环境的吞吐量和延迟。

Mar, 2024

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023

Inferflow：一个高效和高度可配置的大语言模型推理引擎

Inferflow 是一个有效且高度可配置的推理引擎，适用于大规模语言模型（LLMs）。通过修改相关配置文件中的几行代码，用户可以简单地为大多数常见的 Transformer 模型提供服务，而无需编写源代码。相比其他推理引擎，Inferflow 具有一些关键特性：首先，通过实现原子建模块和技术的模块化框架，Inferflow 可以普遍适用于新模型；其次，引入了 3.5 位量化作为 3 位量化和 4 位量化之间的折中；第三，Inferflow 引入了混合模型分区以进行多 GPU 推理，以更好地平衡推理速度和吞吐量，超过了现有的按层分区和按张量分区策略。

Jan, 2024

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理，通过提出一种高吞吐量生成引擎 FlexGen，结合线性规划优化器并压缩权重和注意力缓存，成功实现在仅一个 16GB GPU 上运行 OPT-175B，并取得了较高的推理吞吐量。

Mar, 2023

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023