融合 Fine-tuned 模型以改善预训练

Apr, 2022

Fusing finetuned models for better pretraining

Leshem Choshen, Elad Venezian, Noam Slonim, Yoav Katz

TL;DR通过融合多个经过微调的模型，平均模型参数来达到更好的基础模型的目的，并且发现融合模型效果常常优于预训练模型，同时融合比互训模型更鲁棒且不受目标任务依赖。

Abstract

pretrained models are the standard starting point for training. This approach consistently outperforms the use of a random initialization. However, pretraining is a costly endeavour that few can undertake. In this paper, we create better base models at hardly any cost, by fusing multip

pretrained models fine tuned models model fusion weights averaging intertraining

发现论文，激发创造

模型集成：对多个微调模型的权重进行平均可提高准确度且不增加推理时间

通过平均训练以不同超参数配置微调的模型，提高现有模型的性能和鲁棒性，从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。

Mar, 2022

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

Deep Fusion: 利用预训练的初始值进行高效的网络训练

该研究介绍了 Deep Fusion 的有效方法，利用预训练小型网络的初始化来加速训练过程，减少计算需求，提高自然语言处理任务的泛化性能。

Jun, 2023

如何开始？分析中间模型的潜在价值

通过对一系列英语分类任务的系统分析，本研究表明，可以独立分析考虑目标数据集和作为起点的基准模型的潜在相互训练收益，提出了一种实用且有效的方法来确定如何在实际情况下选择基准模型，同时在此给出了 HuggingFace Hub 每种架构最好的模型的最新排名列表。

Oct, 2022

模型库：我们只需要一些微调的模型

介绍了一种有效的大型预训练模型微调方法，通过使用更少的模型实现更精确的权重，提供了出色的分布内（ID）和分布外（OOD）性能。

Mar, 2024

基于不变性的视觉 Transformer 微调过程研究

本文旨在研究预训练与微调之间的关系，提出了一系列度量指标，探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。

Jul, 2023

基于语言模型权重演化的知识融合

本研究提出了一种名为 Evolver 的知识融合方法，它可以将不同语言模型的权重进行集成，通过进化算法生成新的模型并与父模型进行评估，达到在不同数据领域通用且性能优越的目的，这种方法与现有模型合并框架无缝集成，为模型增强提供了一种多功能工具。

Jun, 2024

语言模型融合的费舍尔掩码节点

我们引入一种新的模型合并方法，将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合，提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升，相较于计算成本的全尺寸 Fisher 加权平均，基准性能提升高达 6.5 个百分点，并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力，并表明其在新的模型架构和学习场景中的可扩展性和适应性。

Mar, 2024

快速调整：快速学习如何微调和选择预训练模型

该论文提出了一种方法，联合搜索最佳预训练模型和微调的超参数，建立了一个大规模元数据集，通过元学习方法基于此进行多保真度性能预测器，快速优化新数据集的超参数，最终得到一个精准的预训练模型和其最优超参数。

Jun, 2023

预训练 - 微调模式中出现的任务交叉线性

通过线性插值发现预训练 - 微调模型之间的交叉任务线性性，揭示神经网络在参数空间到特征空间的映射机制，提供了关于模型合并 / 编辑的新见解，并强调了预训练的影响因素。

Feb, 2024