Aug, 2024

面向服务级目标的GPU频率缩放用于高效的LLM推理服务

TL;DR本研究解决了大型语言模型(LLM)推理过程中的高能耗问题,提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能,同时满足服务级目标。研究结果表明,该方法能将能耗降低多达43.8%,并在满足SLO的情况下显著提高能效。