Feb, 2024
FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning
Xupeng Miao, Gabriele Oliaro, Xinhao Cheng, Mengdi Wu, Colin Unger...
TL;DR我们提出了 FlexLLM,这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统,通过协同服务的方法,利用共享的 GPU 资源来同时运行这两个任务,FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍,并将微调的整个 GPU 内存要求降低了最多 36%,同时保持了低推理延迟并提高了微调吞吐量。