Feb, 2024

FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

TL;DR我们提出了 FlexLLM,这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统,通过协同服务的方法,利用共享的 GPU 资源来同时运行这两个任务,FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍,并将微调的整个 GPU 内存要求降低了最多 36%,同时保持了低推理延迟并提高了微调吞吐量。