Jun, 2024
Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务
Helix: Distributed Serving of Large Language Models via Max-Flow on Heterogeneous GPUs
Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia...
TL;DR介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而联合优化模型放置和请求调度,在几个异构集群设置上的评估结果表明,与现有的最佳方法相比,Helix 将服务吞吐量提高了 2.7 倍,并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。