Aug, 2024

通过权重解耦将模型合并从微调扩展到预训练大型语言模型

TL;DR该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。