Fisher 加权平均合并模型
我们引入一种新的模型合并方法,将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合,提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升,相较于计算成本的全尺寸 Fisher 加权平均,基准性能提升高达 6.5 个百分点,并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力,并表明其在新的模型架构和学习场景中的可扩展性和适应性。
Mar, 2024
通过对不同数据集进行训练的模型进行带权平均化可以提高其性能,但为什么会有效以及何时可能失败?我们通过梯度不匹配将带权平均的不准确性联系起来,并提出了一种基于不确定性的新方案,通过减少不匹配来改善性能。这种联系还揭示了其他方案(如平均化、任务算术和 Fisher 加权平均)中的隐含假设。我们的新方法对大型语言模型和视觉转换器在性能和对超参数的稳健性方面都有一致的改进。
Oct, 2023
本文研究了加权模型平均对任意标量均值估计问题的影响,发现加权平均模型可以减少局部模型的期望平方误差,并量化了加权模型平均的(可能为负的)益处。这项研究正式确定了一种量化协作学习个性化价值的方法,并为未来多元参数估计和基于一系列假设的检验研究提供了框架。
Oct, 2021
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022
该研究提出了一种基于神经网络的逐层模型融合算法,使用最优传输方法将多个模型中的神经元对齐,并将其相关参数平均化,以实现 “一次性” 知识转移,从而有效地提高了模型的性能和压缩率。
Oct, 2019
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集,形成多任务模型(无集中式训练),从而更加灵活地创造通用策略的初步方法,同时提出了合并政策的更优结果可能性,并建议使用共同的预先训练初始化,以及在问题特定微调期间共同训练共享辅助任务,以帮助实现通用智能体的民主化和分布式过程。
Mar, 2023
在这项研究中,我们研究了增量学习(CL)的问题,其目标是在一系列任务中学习模型,使得先前任务的数据在学习当前任务数据时不可用。我们提出了一种称为 Continual Model Averaging(或 CoMA)的加权集成模型,它在保持稳定性的同时,通过利用可塑性,在当前任务上达到高准确性。我们还提出了一种改进的 CoMA 变体,称为 Continual Fisher-weighted Model Averaging(或 CoFiMA),通过利用模型权重的 Fisher 信息,有选择地对加权集合中的每个参数进行加权。这两种变体概念简单、易于实现,并在多个标准 CL 基准测试中实现了最先进的性能。
Dec, 2023