知识是针对微调语言模型的权重空间中的区域

Feb, 2023

知识是针对微调语言模型的权重空间中的区域

Knowledge is a Region in Weight Space for Fine-tuned Language Models

Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz...

TL;DR本研究关注于神经网络的权重空间和损失景观，发现细调模型在权重空间中占有良定义区域，通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现，此研究的结论为高效细调提供了理论依据。

Abstract

Research on neural networks has largely focused on understanding a single model trained on a single dataset. However, relatively little is known about the relationships between different models, especially those trained or tested on different datasets. We address this by studying how t

neural networks weight space loss landscape fine-tuned models efficient fine-tuning

发现论文，激发创造

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

在 Fine-tuned 语言模型中的任务特定技能定位

本文针对预训练语言模型任务中局部技能优化问题提出一种通用解决方案，该方案可显著提高模型预测精度，并在参数效率和任务相似性方面得到优化。

Feb, 2023

知识图谱融合用于语言模型微调

探索将知识图谱注入 Bert 模型的微调阶段来提高语言理解，并通过实验证明注入相关高质量知识对于特定任务有显著的性能提升。

Jun, 2022

知识感知的大语言模型微调

使用知识感知微调（KnowTuning）方法解决大型语言模型在自然语言处理任务中的知识感知不足问题，并在通用和医疗问答数据集上进行了广泛的实验证明了其有效性，并展示了其在未知问答数据集上的泛化能力。

Feb, 2024

通过有针对性的微调揭示神经模型中基于约束的行为

本文研究了大型预训练语言模型中内嵌的语言知识，并探索了同时存在的竞争性语言过程如何影响模型行为。通过对四种语言中的一个现象进行实验，发现模型行为存在跨语言差异。而有针对性的微调可以重新建立学习的约束，揭示模型中否则未表现出的语言知识。

Jun, 2021

神经模型训练的搜索空间

研究神经模型的训练过程中添加权重对搜索空间的影响，提出通过增加搜索空间来训练稀疏模型，以在多个深度学习任务中达到竞争性分数并提高硬件的利用率，鼓励超越当前使用的大型神经模型的研究。

May, 2021

基于语言模型权重演化的知识融合

本研究提出了一种名为 Evolver 的知识融合方法，它可以将不同语言模型的权重进行集成，通过进化算法生成新的模型并与父模型进行评估，达到在不同数据领域通用且性能优越的目的，这种方法与现有模型合并框架无缝集成，为模型增强提供了一种多功能工具。

Jun, 2024

惊人的收益及其发现之处：关于任何预训练模型之间普适知识转移存在和前景

为了训练深度网络，需要在体系结构、数据增强或优化等方面作出各种设计决策。本文通过使用由数千个在 ImageNet 等经典数据集上训练的模型组成的公共模型库，在预训练模型的任意配对中发现了不同模型从数据中学习出独特的特征集。我们研究了在没有外部排名的情况下，是否能够在不降低性能的情况下从一种模型中转移这种 “互补” 知识到另一种模型，同时将强大、具有相似性能或较弱模型中的额外知识结合起来。通过大规模实验，我们揭示了标准知识蒸馏技术的缺点，并提出了一种更加通用的通过数据划分实现几乎所有预训练模型之间成功转移的方法，也证明了无监督转移的可能性。最后，我们评估了基本模型属性对成功的模型无关知识转移的可扩展性和影响。

Oct, 2023

在预训练语言模型中发现关键知识子网络

我们研究了预训练语言模型是否包含多种具有关键作用的子网络，并提出了一种多目标可微的权重掩蔽方案，以准确删除模型中特定的知识，从而使得模型保留对语言和其他记忆性关联知识的建模能力，但在训练后，其表达被删除知识的能力降低，对需要这些已删除知识的任务产生性能下降。

Oct, 2023