Jun, 2024

双子融合:模型融合中的模块专长的动态整合

TL;DR在大型语言模型时代,模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法,但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法,它模块化知识为共享和专属组件,并在输入的基础上动态地合并共享和任务特定的知识,从而缩小了合并模型和微调模型之间的性能差距,并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性,对于判别性任务平均标准化得分提升了 28.34%,在生成性任务上甚至超过了微调模型的上限。