Jul, 2024

专家坚持自己的领域:面向稀疏架构的专家专用微调技术

TL;DR参数高效的微调(PEFT)是为了定制具有受限资源的大型语言模型(LLMs)而关键。本文研究了 Mixture-of-Experts(MoE)架构的 LLMs 上的 PEFT 方法,主要工作内容包括:(1)研究定制任务中激活的专家的集中程度,发现特定任务的路由分布往往高度集中,而激活的专家分布在不同任务之间差异显著。(2)提出了专家定制微调(ESFT),该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家;实验结果表明,我们的方法不仅提高了调整效率,还甚至超过了全参数微调的性能。(3)进一步分析 MoE 架构对专家定制微调的影响,发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合,从而提高训练效率和效果。