May, 2024

LoRA-Switch: 动态 LLM 适配器的系统算法协同优化

TL;DR在这篇论文中,我们提出了 LoRA-Switch,这是一种用于高效动态适配器的系统算法协同设计架构。通过在推理过程中优化了 CUDA 内核并融合了所有 LoRA 适配器的合并操作,我们的方法在保持了现有动态适配器类似准确性提升的同时,将解码延迟缩短了大于 2.4 倍。