Feb, 2024

更高层次需要更多的 LoRA 专家

TL;DR研究提出了一种新颖的参数高效的 MoE 方法,称为 MoLA,适用于基于 Transformer 的模型,通过为每个模型层分配不同数量的 LoRA 专家,该方法在六个著名的 NLP 和常识 QA 基准上展示了与基线相当或更好的性能,该工作可以作为各种应用的即插即用的参数高效调优方法。