合并模型时解决干扰
我们在这篇论文中讨论了使用单个模型权重来合并多个模型以获得多任务能力的方法,并提出了 Elect, Mask & Rescale-Merging (EMR-Merging) 的方式,通过生成轻量级的任务特定调节器来对齐统一模型和每个特定模型之间的方向和幅度,无需调整或训练即可展现出令人瞩目的性能。
May, 2024
将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型,可以同时执行所有任务,通过识别并分离共享知识和任务特定知识,并动态地集成它们,可以在很大程度上减轻参数干扰问题。
Feb, 2024
提出了 MedMerge 方法,通过合并来自不同初始化的模型的权重,从而结合学习自不同任务的特征,以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后,发现合并模型能够显著提高 F1 得分,最多可提高 3%。
Mar, 2024
在大型语言模型时代,模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法,但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法,它模块化知识为共享和专属组件,并在输入的基础上动态地合并共享和任务特定的知识,从而缩小了合并模型和微调模型之间的性能差距,并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性,对于判别性任务平均标准化得分提升了 28.34%,在生成性任务上甚至超过了微调模型的上限。
Jun, 2024
本研究主要关注异构知识传输,通过 MergeNet 模型和参数适配器实现跨不同模型结构、任务和模式的知识交互和应用,以及在异构知识传输中取得显著改进的实验结果。
Apr, 2024
我们提出了一种模型合并的算法,通过使用 TALL-masks 方法识别任务支持,在保留超过 99%的单任务准确性的同时,提高了现有模型合并方法的性能,并且我们的压缩方案将存储减少了 57Gb 到 8.2Gb,保留了 99.7%的原始性能。
May, 2024
提出了一种基于低维共享的 CONcrete 子空间学习方法来解决合并模型中的潜在冲突问题,并通过元学习框架以及梯度优化技术来找到 CONcrete 子空间掩码。通过在视觉和语言领域进行广泛实验,实验结果验证了方法的有效性。
Dec, 2023
利用一种新的模型合并技术 DELLA-Merging,它采用了一种名为 MAGPRUNE 的修剪技术,通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p),接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专家模型和相应的基准数据集上,DELLA 相较于基线方法(delta 参数修剪)平均提升了 2.4 个点(相较于 TIES 提升了 3.6 个点,相较于 DARE 提升了 1.2 个点),相较于无修剪的基线方法(TA)提升了 11.1 个点。
Jun, 2024
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021