合并模型时解决干扰

Jun, 2023

Resolving Interference When Merging Models

Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal

TL;DR本文提出 TrIm 方法，即 Elect Sign & Merge (TIES-Merging) 方法，用于多任务模型的合并，该方法解决了现有合并方法忽略不同模型参数之间干扰，从而导致性能下降的问题。在多种不同情境下的实验中，本方法都表现优异，证明了解决符号干扰的重要性。

Abstract

transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific

transfer learning fine-tuned models model merging interference multitask model

发现论文，激发创造

多模态模型合并的实证研究

本论文探讨了如何将不同模态的 transformer 模型融合成参数有效的多模态结构，通过综合实验分析了融合的关键因素，提出了一个有效的训练方法。

Apr, 2023

EMR-Merging：调优无需参数的高性能模型合并

我们在这篇论文中讨论了使用单个模型权重来合并多个模型以获得多任务能力的方法，并提出了 Elect, Mask & Rescale-Merging (EMR-Merging) 的方式，通过生成轻量级的任务特定调节器来对齐统一模型和每个特定模型之间的方向和幅度，无需调整或训练即可展现出令人瞩目的性能。

May, 2024

通过权重融合的专家组混合合并多任务模型

将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型，可以同时执行所有任务，通过识别并分离共享知识和任务特定知识，并动态地集成它们，可以在很大程度上减轻参数干扰问题。

Feb, 2024

MedMerge: 有效合并模型对医学成像任务进行有效的迁移学习

提出了 MedMerge 方法，通过合并来自不同初始化的模型的权重，从而结合学习自不同任务的特征，以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后，发现合并模型能够显著提高 F1 得分，最多可提高 3％。

Mar, 2024

双子融合：模型融合中的模块专长的动态整合

在大型语言模型时代，模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法，但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法，它模块化知识为共享和专属组件，并在输入的基础上动态地合并共享和任务特定的知识，从而缩小了合并模型和微调模型之间的性能差距，并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性，对于判别性任务平均标准化得分提升了 28.34%，在生成性任务上甚至超过了微调模型的上限。

Jun, 2024

MergeNet：跨异构模型、任务和模态的知识迁移

本研究主要关注异构知识传输，通过 MergeNet 模型和参数适配器实现跨不同模型结构、任务和模式的知识交互和应用，以及在异构知识传输中取得显著改进的实验结果。

Apr, 2024

改进模型合并和压缩的任务信息定位

我们提出了一种模型合并的算法，通过使用 TALL-masks 方法识别任务支持，在保留超过 99％的单任务准确性的同时，提高了现有模型合并方法的性能，并且我们的压缩方案将存储减少了 57Gb 到 8.2Gb，保留了 99.7％的原始性能。

May, 2024

基于具体子空间学习的多任务模型融合中干扰消除

提出了一种基于低维共享的 CONcrete 子空间学习方法来解决合并模型中的潜在冲突问题，并通过元学习框架以及梯度优化技术来找到 CONcrete 子空间掩码。通过在视觉和语言领域进行广泛实验，实验结果验证了方法的有效性。

Dec, 2023

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

利用一种新的模型合并技术 DELLA-Merging，它采用了一种名为 MAGPRUNE 的修剪技术，通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p)，接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专家模型和相应的基准数据集上，DELLA 相较于基线方法（delta 参数修剪）平均提升了 2.4 个点（相较于 TIES 提升了 3.6 个点，相较于 DARE 提升了 1.2 个点），相较于无修剪的基线方法（TA）提升了 11.1 个点。

Jun, 2024

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021