Aug, 2024

动态LLM:为性能和能效设计LLM推理集群

TL;DR本研究针对生成式大语言模型(LLM)推理集群面临的高能耗和碳排放问题,提出了DynamoLLM框架,以实现能效优化。通过动态重新配置推理集群,DynamoLLM在满足服务级别目标的同时,实现了53%的能源节省和38%的运营碳排放减少,使客户成本降低61%。