迁移学习对深度自然语言处理模型中语言知识的影响？

ACLMay, 2021

迁移学习对深度自然语言处理模型中语言知识的影响？

How transfer learning impacts linguistic knowledge in deep NLP models?

Nadir Durrani, Hassan Sajjad, Fahim Dalvi

TL;DR本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

Abstract

transfer learning from pre-trained neural language models towards downstream tasks has been a predominant theme in NLP recently. Several researchers have shown that deep NLP models learn non-trivial amount of

transfer learning pre-trained neural language models nlp tasks linguistic knowledge fine-tuning

发现论文，激发创造

BERT Fine-tuning 中嵌入向量发生了什么？

研究表明，微调 BERT 模型会显著影响其顶部层的表示，尤其是依赖解析涉及模型的大部分，而 SQuAD 和 MNLI 涉及的则较浅。此外，在域外句子的表示方面，微调的影响较弱，这表明模型泛化有待改进。

Apr, 2020

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

探索和预测 NLP 任务的可转移性

本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效，通过在三大问题领域（文本分类、问题回答、序列标注）的 33 个 NLP 任务上的数据验证，结果显示 transfer learning 在数据稀缺情况下更为有效，在源任务数据较少或与目标任务差异较大的情况下仍能提高性能，同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入，并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。

May, 2020

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

预训练变压器中微调和句子级探测在语言知识中的相互作用

本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下，微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响，但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时，需进行慎重解释。

Oct, 2020

通过不间断学习探索预训练跨语言模型的微调技巧

针对 fine-tuning 预训练语言模型后其跨语言能力减弱的问题，该研究提出了一种利用 continual learning 来保持其原有跨语言能力的方法，并在句子检索、跨语言词性标注和命名实体识别等任务中达到更好的性能。

Apr, 2020

预训练语言模型的可转移性研究

研究了语言模型预训练对迁移学习的帮助，引入了一种部分重新初始化的技术来测量每个预训练层对迁移学习效果的影响。结果表明在 BERT 中，对于下游 GLUE 任务性能高的层并不是必要的，也不足以保证高准确性，与此同时，当微调数据较少时，参数提供的效果会显著降低，这些结果强调了迁移学习的复杂性和方法的局限性。

Apr, 2020

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

语言知识可以增强编码器 - 解码器模型（如果你愿意）

本文探讨了将预训练的编码 - 解码模型（特别是 T5）与语言知识相结合用于预测目标任务时的影响。我们研究了在预测句子的结构语言属性的中间任务上微调 T5 模型是否会改变其在预测句子级复杂性目标任务上的性能。我们的研究包括在意大利语和英语数据集上进行的各种实验，使用了单语和多语 T5 模型以及不同尺寸的模型。无论是在两种语言还是在跨语言配置中，结果表明，从语言学角度出发的中间微调通常对目标任务的性能有积极影响，特别是在模型较小且数据有限的情况下。

Feb, 2024