COLINGMar, 2024

语言模型融合的费舍尔掩码节点

TL;DR我们引入一种新的模型合并方法,将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合,提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升,相较于计算成本的全尺寸 Fisher 加权平均,基准性能提升高达 6.5 个百分点,并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力,并表明其在新的模型架构和学习场景中的可扩展性和适应性。