Dec, 2022

融合语言模型权重实现无数据知识融合

TL;DR本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。