动态LLM：为性能和能效设计LLM推理集群

Aug, 2024

动态LLM：为性能和能效设计LLM推理集群

DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency

Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Josep Torrellas, Esha Choukse

TL;DR本研究针对生成式大语言模型（LLM）推理集群面临的高能耗和碳排放问题，提出了DynamoLLM框架，以实现能效优化。通过动态重新配置推理集群，DynamoLLM在满足服务级别目标的同时，实现了53%的能源节省和38%的运营碳排放减少，使客户成本降低61%。

Abstract

The rapid evolution and widespread adoption of generative Large Language Models (LLMs) have made them a pivotal workload in various applications. Today, LLM Inference Clusters receive a large number of queries wi

发现论文，激发创造

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的LLMa在两代热门GPU（NVIDIA V100和A100）以及两个数据集（Alpaca和GSM8K）上的推理性能与推理能源成本。

Oct, 2023

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

超越效率：资源高效的大型语言模型的系统调查

大型语言模型（LLMs）的资源效率调查，系统地介绍了提高LLMs资源效率的各种技术，包括优化策略、评估指标和可持续发展。

Jan, 2024

在关系型工作负载中优化LLM查询

本文探讨了如何优化在关系查询中调用大型语言模型的LLM推断，包括重排行以最大化LLM推断引擎内的键值（KV）缓存重用，重排列列以进一步增加缓存重用，并去重复冗余的推断请求。我们在Apache Spark中实现了这些优化，在真实数据集上的多样化LLM查询基准测试中，最终端到端延迟提高了4.4倍。据我们所知，这是第一个明确解决在SQL查询中优化LLM调用问题的研究。

Mar, 2024

迈向更环保的LLM：将能源效率置于LLM推理的前沿

本文对大型语言模型（LLMs）的推理服务中能源效率的权衡进行了研究，通过探索延迟、吞吐量和能源之间的平衡，提供了优化能源使用的有价值见解，为数据中心环境中可持续且具有成本效益的LLM部署铺平了道路。

Mar, 2024

解密用于多样化 LLM 推理用例的平台要求

研究使用 GenZ 工具来探讨大型语言模型的推理性能与各种平台设计参数之间的关系，并提供配置不同工作负载和用例的平台要求，在不同场景下支持 SOTA LLMs 模型的分析，也展示了为支持未来可能超过数万亿参数的 LLMs 所需的硬件能力预测。

Jun, 2024

混合异构集群能降低LLM推断工作负载的能耗

减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型，使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务，以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任务是在能效处理器上还是在高性能GPU上处理，我们的分析发现，与不考虑工作负载的基准相比，这种混合策略可以将CPU+GPU能耗降低7.5%。

Apr, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Jul, 2024

超参数对大型语言模型推理性能的影响：vLLM和HuggingFace管道的评估

本研究解决了大型语言模型推理性能中的超参数优化问题，通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现，超参数对推理吞吐量有显著影响，优化超参数可提升HuggingFace管道的吞吐量，平均分别提高9.16%和13.7%。

Aug, 2024

面向服务级目标的GPU频率缩放用于高效的LLM推理服务

本研究解决了大型语言模型（LLM）推理过程中的高能耗问题，提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能，同时满足服务级目标。研究结果表明，该方法能将能耗降低多达43.8%，并在满足SLO的情况下显著提高能效。

Aug, 2024