面向服务级目标的GPU频率缩放用于高效的LLM推理服务

Aug, 2024

面向服务级目标的GPU频率缩放用于高效的LLM推理服务

SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving

Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris

TL;DR本研究解决了大型语言模型（LLM）推理过程中的高能耗问题，提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能，同时满足服务级目标。研究结果表明，该方法能将能耗降低多达43.8%，并在满足SLO的情况下显著提高能效。

Abstract

As Large Language Models (LLMs) gain traction, their reliance on power-hungry GPUs places ever-increasing energy demands, raising environmental and monetary concerns. Inference dominates LLM workloads, presenting a critical challenge for providers: minimizing energy costs under

发现论文，激发创造

SARATHI：通过分块填充与顺便解码提高LLM推理效率

SARATHI improves Large Language Model (LLM) inference performance by employing chunked-prefills and decode-maximal batching, resulting in significant throughput improvements and reduced pipeline bubbles when used with pipeline parallelism on GPUs.

Aug, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的LLMa在两代热门GPU（NVIDIA V100和A100）以及两个数据集（Alpaca和GSM8K）上的推理性能与推理能源成本。

Oct, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

迈向更环保的LLM：将能源效率置于LLM推理的前沿

本文对大型语言模型（LLMs）的推理服务中能源效率的权衡进行了研究，通过探索延迟、吞吐量和能源之间的平衡，提供了优化能源使用的有价值见解，为数据中心环境中可持续且具有成本效益的LLM部署铺平了道路。

Mar, 2024

LLMem：用于微调预训练LLM模型的估算GPU内存使用量

LLMem是一种在有限硬件条件下对大型语言模型进行微调的解决方案，通过估计多个GPU上分布式微调方法的GPU内存消耗，并确定最优方法，有效应对GPU内存限制和快速微调的挑战。

Apr, 2024

基于学习的子空间投影器的通用GPU上超参微调LLM的实用卸载

通过学习稀疏压缩器和新颖的分层通信调度，我们提出了一个离线框架 LSP_Offload，能够在普通硬件上以接近原生速度进行大型语言模型的微调，从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。

Jun, 2024

混合异构集群能降低LLM推断工作负载的能耗

减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型，使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务，以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任务是在能效处理器上还是在高性能GPU上处理，我们的分析发现，与不考虑工作负载的基准相比，这种混合策略可以将CPU+GPU能耗降低7.5%。

Apr, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Jul, 2024

动态LLM：为性能和能效设计LLM推理集群

本研究针对生成式大语言模型（LLM）推理集群面临的高能耗和碳排放问题，提出了DynamoLLM框架，以实现能效优化。通过动态重新配置推理集群，DynamoLLM在满足服务级别目标的同时，实现了53%的能源节省和38%的运营碳排放减少，使客户成本降低61%。

Aug, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Aug, 2024