DeepSpeed-FastGen：基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成

Jan, 2024

DeepSpeed-FastGen：基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley...

TL;DRDeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统，相较于 vLLM 等现有系统，在吞吐量上提高了 2.3 倍，平均延迟降低了 2 倍，并且在 token 级别尾延迟降低了最高达 3.7 倍，通过采用 DeepSpeed-MII 和 DeepSpeed-Inference 的协同组合，为 LLMs 提供了高效易用的服务系统。

Abstract

The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-→

large language models deepspeed-fastgen dynamic splitfuse throughput latency

发现论文，激发创造

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

使用单个 GPU 进行大规模语言模型的高吞吐量生成推断

本文旨在研究如何利用有限的 GPU 资源进行高吞吐量的大语言模型推理，通过提出一种高吞吐量生成引擎 FlexGen，结合线性规划优化器并压缩权重和注意力缓存，成功实现在仅一个 16GB GPU 上运行 OPT-175B，并取得了较高的推理吞吐量。

Mar, 2023

大和小语言模型协同解码的经验研究

利用 Fast and Slow Generating（FS-GEN）统一框架，研究了大型语言模型（LLMs）与小型语言模型（SLMs）之间的协同解码，包括投机解码、对比解码和仿真或代理微调等技术，并通过 FS-GEN 解析了 LLMs 和 SLMs 之间的不同知识能力，揭示了协同交互的比例需求和基于不确定性的有效合作位置。

Jun, 2024

DeepSpeed 推理：在前所未有的规模下实现 Transformer 模型的高效推理

本文介绍了 DeepSpeed Inference 这一全面的转换模型推断系统解决方案，以解决目前多样化的转换模型在推断时遇到的挑战，包括多 GPU 推断方案，利用 CPU 和 NVMe 内存进行异构推断以及在实时延迟限制下运行万亿级别的推断等，并且可以比 GPU-only 解决方案处理规模大 25 倍的模型，同时提供高吞吐量。

Jun, 2022

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

SpeechGen：利用提示释放语音语言模型的生成力量

本文介绍了一种名为 SpeechGen 的框架，使用 10M 个可训练参数，探索了提示调整方法来刺激语音语言模型进行各种生成任务，为更高效和有效地生成任务提供了前景。

Jun, 2023

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Jun, 2024

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

SpeedUpNet：加速文本图像传播模型的即插即用超网络

基于文本到图像扩散模型的加速方法，提出了一种新的稳定扩散加速模块 SpeedUpNet（SUN），通过多步一致性损失和交叉注意力层来减少推理步骤，并消除对分类器的引导需求，比现有的 25 步骤 DPM-solver++ 模型快 10 倍以上。

Dec, 2023