Fisher 加权平均合并模型

Nov, 2021

Merging Models with Fisher-Weighted Averaging

Michael Matena, Colin Raffel

TL;DR本研究提出了 Fisher 合并方法用于模型合并，与标准梯度传递学习方法相比，Fisher 合并可以在中间任务训练和领域自适配预训练方面提供一种基本不同的能力转移方法，同时成本更低，并且同时能够实现以前未曾探索的模型组合方式。

Abstract

Averaging the parameters of models that have the same architecture and initialization can provide a means of combining their respective capabilities. In this paper, we take the perspective that this "merging" operation can be seen as choosing parameters that approximately maximize the joint likelihood of the posteriors of the models' parameters. Computing a

model merging isotropic gaussian fisher merging gradient-based transfer learning domain-adaptive pre-training

发现论文，激发创造

语言模型融合的费舍尔掩码节点

我们引入一种新的模型合并方法，将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合，提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升，相较于计算成本的全尺寸 Fisher 加权平均，基准性能提升高达 6.5 个百分点，并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力，并表明其在新的模型架构和学习场景中的可扩展性和适应性。

Mar, 2024

基于不确定性梯度匹配的模型合并

通过对不同数据集进行训练的模型进行带权平均化可以提高其性能，但为什么会有效以及何时可能失败？我们通过梯度不匹配将带权平均的不准确性联系起来，并提出了一种基于不确定性的新方案，通过减少不匹配来改善性能。这种联系还揭示了其他方案（如平均化、任务算术和 Fisher 加权平均）中的隐含假设。我们的新方法对大型语言模型和视觉转换器在性能和对超参数的稳健性方面都有一致的改进。

Oct, 2023

最优模型平均化：走向个性化协作学习

本文研究了加权模型平均对任意标量均值估计问题的影响，发现加权平均模型可以减少局部模型的期望平方误差，并量化了加权模型平均的（可能为负的）益处。这项研究正式确定了一种量化协作学习个性化价值的方法，并为未来多元参数估计和基于一系列假设的检验研究提供了框架。

Oct, 2021

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

最优传输中的模型融合

该研究提出了一种基于神经网络的逐层模型融合算法，使用最优传输方法将多个模型中的神经元对齐，并将其相关参数平均化，以实现 “一次性” 知识转移，从而有效地提高了模型的性能和压缩率。

Oct, 2019

模型集成：对多个微调模型的权重进行平均可提高准确度且不增加推理时间

通过平均训练以不同超参数配置微调的模型，提高现有模型的性能和鲁棒性，从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。

Mar, 2022

WASH：使用通信高效的权重重排，然后平均训练你的集成模型

WASH 是一种新的分布式方法，用于训练模型集合以进行权重平均化，实现了最先进的图像分类准确性。

May, 2024

融合决策 Transformer: 权重平均以形成多任务策略

本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集，形成多任务模型（无集中式训练），从而更加灵活地创造通用策略的初步方法，同时提出了合并政策的更优结果可能性，并建议使用共同的预先训练初始化，以及在问题特定微调期间共同训练共享辅助任务，以帮助实现通用智能体的民主化和分布式过程。

Mar, 2023

分布式统计学习的引导模型聚合

本文提出两种方差降低方法对分布式、隐私保护学习中使用的基于自助法的方法进行改善，包括权重 M - 估计器等。进行了理论和实证分析以证明我们的方法。

Jul, 2016

加权合奏模型是强大的持续学习者

在这项研究中，我们研究了增量学习（CL）的问题，其目标是在一系列任务中学习模型，使得先前任务的数据在学习当前任务数据时不可用。我们提出了一种称为 Continual Model Averaging（或 CoMA）的加权集成模型，它在保持稳定性的同时，通过利用可塑性，在当前任务上达到高准确性。我们还提出了一种改进的 CoMA 变体，称为 Continual Fisher-weighted Model Averaging（或 CoFiMA），通过利用模型权重的 Fisher 信息，有选择地对加权集合中的每个参数进行加权。这两种变体概念简单、易于实现，并在多个标准 CL 基准测试中实现了最先进的性能。

Dec, 2023