Nov, 2023

S-LoRA:为数千个并发的 LoRA 适配器提供服务

TL;DR通过使用 S-LoRA 系统,可以在单个 GPU 上或多个 GPU 上以较小的开销提高吞吐量并使 LoRA 适配器的数量成倍增加,从而实现可伸缩的运行多个 Fine-tuned 模型的服务。