关于在CPU上对大型语言模型进行推断性能优化的研究

Jul, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

Inference Performance Optimization for Large Language Models on CPUs

Pujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang...

TL;DR该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Abstract

large language models (llms) have shown exceptional performance and vast potential across diverse tasks. However, the deployment of

发现论文，激发创造

大语言模型快速分布式推理服务

FastServe是一种分布式推理服务系统，利用预emption技术在输出单词级别上最小化了Large language models的inference时间，并采用GPU内存管理机制，与现有解决方案相比可将平均和tail JCT分别提高了5.1倍和6.4倍。

May, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的LLMa在两代热门GPU（NVIDIA V100和A100）以及两个数据集（Alpaca和GSM8K）上的推理性能与推理能源成本。

Oct, 2023

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

大型语言模型推理的硬件评估框架

通过LLMCompass硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

LLM-PQ：利用多阶段感知分割和自适应量化为异构集群提供LLM

LLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统，旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策，LLM-PQ大大提高了推理吞吐量，同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明，LLM-PQ在推理上实现了高达2.88倍（平均2.26倍）的吞吐量改进，显示出较其他最先进方法的巨大优势。

Mar, 2024

超参数对大型语言模型推理性能的影响：vLLM和HuggingFace管道的评估

本研究解决了大型语言模型推理性能中的超参数优化问题，通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现，超参数对推理吞吐量有显著影响，优化超参数可提升HuggingFace管道的吞吐量，平均分别提高9.16%和13.7%。

Aug, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Aug, 2024

面向服务级目标的GPU频率缩放用于高效的LLM推理服务

本研究解决了大型语言模型（LLM）推理过程中的高能耗问题，提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能，同时满足服务级目标。研究结果表明，该方法能将能耗降低多达43.8%，并在满足SLO的情况下显著提高能效。

Aug, 2024