双子融合：模型融合中的模块专长的动态整合

Jun, 2024

双子融合：模型融合中的模块专长的动态整合

Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging

Zhenyi Lu, Chenghao Fan, Wei Wei, Xiaoye Qu, Dangyang Chen...

TL;DR在大型语言模型时代，模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法，但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法，它模块化知识为共享和专属组件，并在输入的基础上动态地合并共享和任务特定的知识，从而缩小了合并模型和微调模型之间的性能差距，并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性，对于判别性任务平均标准化得分提升了 28.34%，在生成性任务上甚至超过了微调模型的上限。

Abstract

In the era of large language models, model merging is a promising way to combine multiple task-specific models into a single multitask mod

large language models model merging task-specific models twin-merging heterogeneous data

发现论文，激发创造

多模态模型合并的实证研究

本论文探讨了如何将不同模态的 transformer 模型融合成参数有效的多模态结构，通过综合实验分析了融合的关键因素，提出了一个有效的训练方法。

Apr, 2023

通过权重融合的专家组混合合并多任务模型

将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型，可以同时执行所有任务，通过识别并分离共享知识和任务特定知识，并动态地集成它们，可以在很大程度上减轻参数干扰问题。

Feb, 2024

多目标优化：通过多个 LLM 的潜力释放形态时间

介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法，通过自动化配置搜索的过程，使用多个多样化任务的性能估计作为优化目标，以消除不同源模型之间的参数冲突，同时不丢失重要的增量参数，提供了模型合并技术的重要进展，为将多个模型集成为统一的高性能模型提供了强大而易于使用的解决方案。

Jun, 2024

大型语言模型的知识融合

通过知识融合的方法，将预先训练的大型语言模型相互结合，以提升目标模型的性能表现，实现在推理、常识与代码生成等多种能力上的改进。

Jan, 2024

AdaMerging：多任务学习的自适应模型融合

本文介绍了一种创新技术称为自适应模型融合（AdaMerging），该方法通过无监督任务算术方案自动学习模型融合的系数，既可以在任务层面上，也可以在层级层面上，而无需依赖原始训练数据。实验结果表明，与当前最先进的任务算术融合方案相比，AdaMerging 在性能上有显著的 11% 改进，并且在应用于未见过的下游任务时表现出更好的泛化能力，同时还显著提高了对数据分布漂移的鲁棒性。

Oct, 2023

MergeNet：跨异构模型、任务和模态的知识迁移

本研究主要关注异构知识传输，通过 MergeNet 模型和参数适配器实现跨不同模型结构、任务和模式的知识交互和应用，以及在异构知识传输中取得显著改进的实验结果。

Apr, 2024

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

模型合并与安全对齐：一枚坏模型败坏一群模型

将多个专家语言模型合并成单一多功能模型的成本效益技术中，当前方法经常忽视了合并过程中安全对齐的重要性，导致模型高度不对齐。本研究调查了模型合并对对齐的影响，评估了几种常见的模型合并技术，证明现有方法不仅传递了领域专业知识，还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题：(i) 生成合成的安全性和领域特定数据，和 (ii) 将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样，我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明，在合并过程中整合与对齐相关的数据的有效性，产生了在领域专业知识和对齐度方面都优秀的模型。

Jun, 2024

ZipIt! 不训练合并不同任务的模型

本文提出了 “ZipIt！” 方法，通过特征合并和部分合并层实现两个架构相同的模型的合并，使得合并不同领域训练的模型变得更为可行。

May, 2023

设计混合专家作为模块化多任务学习者

该研究提出了 Mod-Squad 模型，使用模块化结构将组内的专家与任务相匹配，并在训练过程中优化匹配过程以对抗多任务学习的挑战。实验表明本方法在任务数量和训练集规模扩大时表现强于其他方法。

Dec, 2022