Feb, 2020

微调预训练语言模型:权重初始化,数据排序和早期停止

TL;DR该研究通过对 GLUE 基准测试中的四个数据集进行 BERT 的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。