使用各向同性批量归一化Fine-Tuning BERT

May, 2020

使用各向同性批量归一化Fine-Tuning BERT

IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization

Wenxuan Zhou, Bill Yuchen Lin, Xiang Ren

TL;DR本文研究了预训练语言模型中的同向性问题，提出了一种新的网络正则化方法：同向批量归一化（IsoBN），用于解决优化学习中掌握主要因素的问题，从而获得更多同向表现，提高了七项自然语言理解任务约1.0的绝对增量。

Abstract

fine-tuning pre-trained language models (ptlms), such as BERT and its better variant RoBERTa, has been a common practice for advancing per

发现论文，激发创造

可视化理解BERT的有效性

本文研究了使用BERT等语言模型进行预训练，并fine-tuning在不同任务上的应用。通过可视化损失函数和优化轨迹，本研究得出：预训练可以在不同任务上发现较好的初始参数点，这有利于fine-tuning得到更宽的稳定最优解，更好地实现泛化，而且BERT在fine-tuning过程中具有较强的鲁棒性。BERT的下层更具有不变性且能学习到更具传递性的语言表示。

Aug, 2019

微调预训练语言模型：权重初始化，数据排序和早期停止

该研究通过对GLUE基准测试中的四个数据集进行BERT的微调，发现同样参数下，不同的随机种子会导致非常不同的结果表现，并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外，该研究对微调方法的实现提出了最佳实践，并公开其所有实验数据以供更深入的分析。

Feb, 2020

BERT Fine-tuning中嵌入向量发生了什么？

研究表明，微调BERT模型会显著影响其顶部层的表示，尤其是依赖解析涉及模型的大部分，而SQuAD和MNLI涉及的则较浅。此外，在域外句子的表示方面，微调的影响较弱，这表明模型泛化有待改进。

Apr, 2020

重新审视少样本BERT微调

本文研究了BERT上下文表示的微调，重点关注少样本场景中常见的不稳定性，我们确定了引起这种不稳定性的几个因素，包括使用非标准优化方法、BERT网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上，我们重新审视了最近提出的改善BERT少样本微调的方法，并重新评估了它们的有效性。通常情况下，我们观察到这些方法在我们修改后的过程中的影响显著降低。

Jun, 2020

学习去除：面向各向同性的预训练BERT嵌入

研究表明预训练语言模型，如BERT，在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练BERT嵌入的几何特征，提出一种基于可学习权重的简单而有效的方法，可以更好地处理向量的同一性问题，并在三项标准任务中获得较好的性能表现。

Apr, 2021

噪声稳定正则化提高BERT微调

本文提出了一种新颖有效的正则化方法，称为分层噪声稳定性正则化(LNSR)，其可改善在自然语言处理任务中的fine-tuning。通过实验证明，使用LNSR的fine-tuning展现出明显的泛化和稳定性优势，并且我们的方法也显示出优于其他现有算法的优势。

Jul, 2021

微调对嵌入空间几何结构的影响：以等向性为例的案例研究

分析fine-tuning预训练语言模型后嵌入空间异构性的变化，证明fine-tuning并不能使嵌入空间的等向性增强，还发现fine-tuning会导致预训练的CWRs中的局部结构发生巨大变化，使得原有的等向性增强方法失效。

Sep, 2021

多语言BERT嵌入空间中的各向同性分析

研究探讨如何解决多语种 BERT 模型在语言表示中的异构性以及异常维度，以提高其表现力和性能，并发现各种语言的嵌入空间在结构上部分类似。

Oct, 2021

使用学习者高效微调压缩语言模型

本论文提出使用学习模块和启动技术进行预训练模型的微调，以达到在更短的时间内得到更好效果的目标。实验证明，Learner 模块和 priming 可以在训练速度、资源利用等方面有较大提升。

Aug, 2022

稳定各向异性正则化

本文提出一种新的正则化方法I-STAR，该方法可以在训练过程中增加或减少嵌入空间中的等向性水平，并发现在大多数任务和模型中减少等向性可以改善性能。

May, 2023