BERT Fine-tuning 中嵌入向量发生了什么？

Apr, 2020

BERT Fine-tuning 中嵌入向量发生了什么？

What Happens To BERT Embeddings During Fine-tuning?

Amil Merchant, Elahe Rahimtoroghi, Ellie Pavlick, Ian Tenney

TL;DR研究表明，微调 BERT 模型会显著影响其顶部层的表示，尤其是依赖解析涉及模型的大部分，而 SQuAD 和 MNLI 涉及的则较浅。此外，在域外句子的表示方面，微调的影响较弱，这表明模型泛化有待改进。

Abstract

While there has been much recent work studying how linguistic information is encoded in pre-trained sentence representations, comparatively little is understood about how these models change when adapted to solve downstream tasks. Using a suite of analysis techniques (probing classifiers, Representational Similarity Analysis, and model ablations), we investi

bert model fine-tuning downstream tasks linguistic phenomena model generalization

发现论文，激发创造

深入探究微调如何改变 BERT

本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响，并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论，其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能，还发现了一个对 “细调总是提高性能” 的普遍看法的例外，并且发现细调不会引入任意更改，而是在保留数据点的原始空间结构的同时将其调整到下游任务。

Jun, 2021

预训练变压器中微调和句子级探测在语言知识中的相互作用

本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下，微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响，但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时，需进行慎重解释。

Oct, 2020

迁移学习对深度自然语言处理模型中语言知识的影响？

本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

May, 2021

多语言 BERT 的语言特异性和微调的影响

对多语言 BERT（mBERT）进行 fine-tuning，研究其语言特定知识和语言无关知识之间的关系。实验结果表明，fine-tuning 导致模型的表征能力重新组织，增强了语言无关表征，牺牲了语言特定表征。

Sep, 2021

BERT 上语法信息编码的演进

本文分析了 BERT 在六种不同的任务中精细调整过程中所嵌入的句法树随着调整而演变的情况，结果表明编码的语法信息在不同任务的精细调整过程中被遗忘（词性标注）、强化（依存句法和组成成句）或保留（语义相关任务）。

Jan, 2021

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021

BERT 的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层 BERT 激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

可视化理解 BERT 的有效性

本文研究了使用 BERT 等语言模型进行预训练，并 fine-tuning 在不同任务上的应用。通过可视化损失函数和优化轨迹，本研究得出：预训练可以在不同任务上发现较好的初始参数点，这有利于 fine-tuning 得到更宽的稳定最优解，更好地实现泛化，而且 BERT 在 fine-tuning 过程中具有较强的鲁棒性。BERT 的下层更具有不变性且能学习到更具传递性的语言表示。

Aug, 2019