Oct, 2024
MiLoRA:针对大型语言模型的高效低秩适应混合微调
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language
Models Fine-tuning
TL;DR该研究解决了低秩适应在多租户环境中引入的显著延迟问题。通过提出混合低秩适应(MiLoRA),该方法在考虑每个低秩适应模块作为专家的基础上,采用了基于提示的路由机制,从而减少了延迟。实验表明,MiLoRA在性能上超越了强基准,同时显著降低了多租户设置中的延迟。