使用各向同性批量归一化Fine-Tuning BERT
本文研究了使用BERT等语言模型进行预训练,并fine-tuning在不同任务上的应用。通过可视化损失函数和优化轨迹,本研究得出:预训练可以在不同任务上发现较好的初始参数点,这有利于fine-tuning得到更宽的稳定最优解,更好地实现泛化,而且BERT在fine-tuning过程中具有较强的鲁棒性。BERT的下层更具有不变性且能学习到更具传递性的语言表示。
Aug, 2019
该研究通过对GLUE基准测试中的四个数据集进行BERT的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。
Feb, 2020
研究表明,微调BERT模型会显著影响其顶部层的表示,尤其是依赖解析涉及模型的大部分,而SQuAD和MNLI涉及的则较浅。此外,在域外句子的表示方面,微调的影响较弱,这表明模型泛化有待改进。
Apr, 2020
本文研究了BERT上下文表示的微调,重点关注少样本场景中常见的不稳定性,我们确定了引起这种不稳定性的几个因素,包括使用非标准优化方法、BERT网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上,我们重新审视了最近提出的改善BERT少样本微调的方法,并重新评估了它们的有效性。通常情况下,我们观察到这些方法在我们修改后的过程中的影响显著降低。
Jun, 2020
研究表明预训练语言模型,如BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练BERT嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021
本文提出了一种新颖有效的正则化方法,称为分层噪声稳定性正则化(LNSR),其可改善在自然语言处理任务中的fine-tuning。通过实验证明,使用LNSR的fine-tuning展现出明显的泛化和稳定性优势,并且我们的方法也显示出优于其他现有算法的优势。
Jul, 2021
分析fine-tuning预训练语言模型后嵌入空间异构性的变化,证明fine-tuning并不能使嵌入空间的等向性增强,还发现fine-tuning会导致预训练的CWRs中的局部结构发生巨大变化,使得原有的等向性增强方法失效。
Sep, 2021
本论文提出使用学习模块和启动技术进行预训练模型的微调,以达到在更短的时间内得到更好效果的目标。实验证明,Learner 模块和 priming 可以在训练速度、资源利用等方面有较大提升。
Aug, 2022