Jan, 2025

TAPAS:云平台中针对大型语言模型推理的热能和功耗感知调度

TL;DR本研究解决了在云数据中心中进行大型语言模型(LLM)推理时热管理和功耗控制的难题。提出的TAPAS框架通过利用历史温度和功耗数据,实现了在冷却和功耗约束下高效配置新GPU工作负载虚拟机,显著减少了热和功耗限制事件,提升了系统效率和总拥有成本的降低。