Jun, 2024

Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务

TL;DR介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而联合优化模型放置和请求调度,在几个异构集群设置上的评估结果表明,与现有的最佳方法相比,Helix 将服务吞吐量提高了 2.7 倍,并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。