语言模型融合的费舍尔掩码节点

COLINGMar, 2024

Fisher Mask Nodes for Language Model Merging

Thennal D K, Ganesh Nathan, Suchithra M S

TL;DR我们引入一种新的模型合并方法，将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合，提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升，相较于计算成本的全尺寸 Fisher 加权平均，基准性能提升高达 6.5 个百分点，并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力，并表明其在新的模型架构和学习场景中的可扩展性和适应性。

Abstract

fine-tuning pre-trained models provides significant advantages in downstream performance. The ubiquitous nature of pre-trained models such as BERT and its derivatives in natural language processing has also led to a proliferation of task-specific fine-tuned models. As these models typi

fine-tuning pre-trained models task-specific models model merging transformers fisher-weighted averaging

发现论文，激发创造

Fisher 加权平均合并模型

本研究提出了 Fisher 合并方法用于模型合并，与标准梯度传递学习方法相比，Fisher 合并可以在中间任务训练和领域自适配预训练方面提供一种基本不同的能力转移方法，同时成本更低，并且同时能够实现以前未曾探索的模型组合方式。

Nov, 2021

融合决策 Transformer: 权重平均以形成多任务策略

本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集，形成多任务模型（无集中式训练），从而更加灵活地创造通用策略的初步方法，同时提出了合并政策的更优结果可能性，并建议使用共同的预先训练初始化，以及在问题特定微调期间共同训练共享辅助任务，以帮助实现通用智能体的民主化和分布式过程。

Mar, 2023

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

EMR-Merging：调优无需参数的高性能模型合并

我们在这篇论文中讨论了使用单个模型权重来合并多个模型以获得多任务能力的方法，并提出了 Elect, Mask & Rescale-Merging (EMR-Merging) 的方式，通过生成轻量级的任务特定调节器来对齐统一模型和每个特定模型之间的方向和幅度，无需调整或训练即可展现出令人瞩目的性能。

May, 2024

基于不确定性梯度匹配的模型合并

通过对不同数据集进行训练的模型进行带权平均化可以提高其性能，但为什么会有效以及何时可能失败？我们通过梯度不匹配将带权平均的不准确性联系起来，并提出了一种基于不确定性的新方案，通过减少不匹配来改善性能。这种联系还揭示了其他方案（如平均化、任务算术和 Fisher 加权平均）中的隐含假设。我们的新方法对大型语言模型和视觉转换器在性能和对超参数的稳健性方面都有一致的改进。

Oct, 2023

融合 Fine-tuned 模型以改善预训练

通过融合多个经过微调的模型，平均模型参数来达到更好的基础模型的目的，并且发现融合模型效果常常优于预训练模型，同时融合比互训模型更鲁棒且不受目标任务依赖。

Apr, 2022

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

通过权重融合的专家组混合合并多任务模型

将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型，可以同时执行所有任务，通过识别并分离共享知识和任务特定知识，并动态地集成它们，可以在很大程度上减轻参数干扰问题。

Feb, 2024

使用大型预训练语言模型的低资源命名实体识别：SemEval-2022 任务 11 中的 SFE-AI

本文描述我们在 SemEval 2022 任务 11 中使用 Transformer 层自适应地整合多个预训练语言模型进行实体识别，在波斯语和荷兰语方面表现优异。

May, 2022

模型集成：对多个微调模型的权重进行平均可提高准确度且不增加推理时间

通过平均训练以不同超参数配置微调的模型，提高现有模型的性能和鲁棒性，从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。

Mar, 2022