融合语言模型权重实现无数据知识融合

Dec, 2022

融合语言模型权重实现无数据知识融合

Dataless Knowledge Fusion by Merging Weights of Language Models

Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng

TL;DR本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Abstract

Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy

pre-trained language models merging individual models data privacy knowledge fusion multi-task learning

发现论文，激发创造

基于语言模型权重演化的知识融合

本研究提出了一种名为 Evolver 的知识融合方法，它可以将不同语言模型的权重进行集成，通过进化算法生成新的模型并与父模型进行评估，达到在不同数据领域通用且性能优越的目的，这种方法与现有模型合并框架无缝集成，为模型增强提供了一种多功能工具。

Jun, 2024

大型语言模型的知识融合

通过知识融合的方法，将预先训练的大型语言模型相互结合，以提升目标模型的性能表现，实现在推理、常识与代码生成等多种能力上的改进。

Jan, 2024

融合遗忘：通过模型融合实现偏见降低和选择性记忆

模型融合研究的目标是通过结合模型的权重来聚集多个模型的知识以增强性能。本文通过多个实验，针对文本分类和生成任务，深入研究了模型融合对学习过程中的快捷方式、社会偏见和记忆能力的影响，并发现模型融合通常会增强模型之间的共享知识，而未共享的知识通常会丢失或遗忘。基于这一观察，我们展示了模型融合作为一种去偏方法的潜力，并展示了它在解决与语言模型相关的隐私问题方面的效力。

Nov, 2023

无导数权重空间集成

最新研究表明，在两个专门的语言模型的权重之间进行插值可以以多任务学习无法实现的方式在任务之间转移知识。然而，极少有人探索过在两个以上模型之间进行插值，每个模型具有不同的知识库。本文介绍了一种称为 DFWE（Derivative Free Weight-space Ensembling）的新的基于少样本的任务迁移方法，用于开放领域对话。我们的框架使用预定义的源任务集创建了一组多样的专家语言模型。然后，我们在目标任务上对每个专家模型进行微调，从多个不同的知识库中处理目标任务。最后，我们使用无梯度优化算法在模型权重之间进行线性插值，以有效地找到一个好的插值权重。我们在 FETA-Friends 上展示了该方法的有效性，其优于标准的预训练 - 微调方法。

Jul, 2023

融合 Fine-tuned 模型以改善预训练

通过融合多个经过微调的模型，平均模型参数来达到更好的基础模型的目的，并且发现融合模型效果常常优于预训练模型，同时融合比互训模型更鲁棒且不受目标任务依赖。

Apr, 2022

深度模型融合：一项综述

深度模型融合是将多个深度学习模型的参数或预测合并为一个模型的新兴技术，以提高性能。研究对大规模深度学习模型的融合存在高计算成本、高维参数空间和不同异构模型之间的干扰等挑战。鉴于对该技术缺乏完整详细的调查研究，我们呈现了一份综合调查报告以总结最近的进展，并提出了未来模型融合的研究方向。该综述有助于深入了解不同模型融合方法与实际应用方法之间的关联，从而启发研究深度模型融合领域。

Sep, 2023

语言模型融合的费舍尔掩码节点

我们引入一种新的模型合并方法，将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合，提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升，相较于计算成本的全尺寸 Fisher 加权平均，基准性能提升高达 6.5 个百分点，并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力，并表明其在新的模型架构和学习场景中的可扩展性和适应性。

Mar, 2024

FuseChat：聊天模型的知识融合

通过知识融合技术将结构和规模不同的源语言模型（LLM）融合为具有相同结构和大小的目标 LLM，从而实现对聊天 LLM 的融合，该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型，并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。

Feb, 2024

知识是针对微调语言模型的权重空间中的区域

本研究关注于神经网络的权重空间和损失景观，发现细调模型在权重空间中占有良定义区域，通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现，此研究的结论为高效细调提供了理论依据。

Feb, 2023

多领域情境下的神经机器翻译训练

本文探索了在多领域场景下训练神经机器翻译系统的替代方法，结果表明最佳翻译质量可通过在可用领域数据的串联上构建初始系统并在领域内数据上进行微调来实现。

Aug, 2017