可视化理解 BERT 的有效性

EMNLPAug, 2019

Visualizing and Understanding the Effectiveness of BERT

Yaru Hao, Li Dong, Furu Wei, Ke Xu

TL;DR本文研究了使用 BERT 等语言模型进行预训练，并 fine-tuning 在不同任务上的应用。通过可视化损失函数和优化轨迹，本研究得出：预训练可以在不同任务上发现较好的初始参数点，这有利于 fine-tuning 得到更宽的稳定最优解，更好地实现泛化，而且 BERT 在 fine-tuning 过程中具有较强的鲁棒性。BERT 的下层更具有不变性且能学习到更具传递性的语言表示。

Abstract

language model pre-training, such as bert, has achieved remarkable results in many NLP tasks. However, it is unclear why the pre-training-then-fine-tuning paradigm can improve performance and →

language model pre-training bert optimization trajectories generalization capability transferable representations

发现论文，激发创造

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

BERT Fine-tuning 中嵌入向量发生了什么？

研究表明，微调 BERT 模型会显著影响其顶部层的表示，尤其是依赖解析涉及模型的大部分，而 SQuAD 和 MNLI 涉及的则较浅。此外，在域外句子的表示方面，微调的影响较弱，这表明模型泛化有待改进。

Apr, 2020

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023

基于不变性的视觉 Transformer 微调过程研究

本文旨在研究预训练与微调之间的关系，提出了一系列度量指标，探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。

Jul, 2023

多语言 BERT 的语言特异性和微调的影响

对多语言 BERT（mBERT）进行 fine-tuning，研究其语言特定知识和语言无关知识之间的关系。实验结果表明，fine-tuning 导致模型的表征能力重新组织，增强了语言无关表征，牺牲了语言特定表征。

Sep, 2021

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

深入探究微调如何改变 BERT

本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响，并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论，其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能，还发现了一个对 “细调总是提高性能” 的普遍看法的例外，并且发现细调不会引入任意更改，而是在保留数据点的原始空间结构的同时将其调整到下游任务。

Jun, 2021

预训练语言模型的可转移性研究

研究了语言模型预训练对迁移学习的帮助，引入了一种部分重新初始化的技术来测量每个预训练层对迁移学习效果的影响。结果表明在 BERT 中，对于下游 GLUE 任务性能高的层并不是必要的，也不足以保证高准确性，与此同时，当微调数据较少时，参数提供的效果会显著降低，这些结果强调了迁移学习的复杂性和方法的局限性。

Apr, 2020

无监督预训练的泛化能力研究

运用一种新的理论框架，研究无监督预训练对细调模型泛化能力的影响，并通过分析两个具体场景的泛化上限，提出了一种新的预训练正则化方法，从而促进了细调模型的泛化能力。

Mar, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019