融合 Fine-tuned 模型以改善预训练
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022
该研究介绍了 Deep Fusion 的有效方法,利用预训练小型网络的初始化来加速训练过程,减少计算需求,提高自然语言处理任务的泛化性能。
Jun, 2023
通过对一系列英语分类任务的系统分析,本研究表明,可以独立分析考虑目标数据集和作为起点的基准模型的潜在相互训练收益,提出了一种实用且有效的方法来确定如何在实际情况下选择基准模型,同时在此给出了 HuggingFace Hub 每种架构最好的模型的最新排名列表。
Oct, 2022
本文旨在研究预训练与微调之间的关系,提出了一系列度量指标,探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。
Jul, 2023
本研究提出了一种名为 Evolver 的知识融合方法,它可以将不同语言模型的权重进行集成,通过进化算法生成新的模型并与父模型进行评估,达到在不同数据领域通用且性能优越的目的,这种方法与现有模型合并框架无缝集成,为模型增强提供了一种多功能工具。
Jun, 2024
我们引入一种新的模型合并方法,将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合,提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升,相较于计算成本的全尺寸 Fisher 加权平均,基准性能提升高达 6.5 个百分点,并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力,并表明其在新的模型架构和学习场景中的可扩展性和适应性。
Mar, 2024
该论文提出了一种方法,联合搜索最佳预训练模型和微调的超参数,建立了一个大规模元数据集,通过元学习方法基于此进行多保真度性能预测器,快速优化新数据集的超参数,最终得到一个精准的预训练模型和其最优超参数。
Jun, 2023
通过线性插值发现预训练 - 微调模型之间的交叉任务线性性,揭示神经网络在参数空间到特征空间的映射机制,提供了关于模型合并 / 编辑的新见解,并强调了预训练的影响因素。
Feb, 2024