Aug, 2024
面向服务级目标的GPU频率缩放用于高效的LLM推理服务
SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference
Serving
Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris
TL;DR本研究解决了大型语言模型(LLM)推理过程中的高能耗问题,提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能,同时满足服务级目标。研究结果表明,该方法能将能耗降低多达43.8%,并在满足SLO的情况下显著提高能效。