EMNLPAug, 2019

可视化理解 BERT 的有效性

TL;DR本文研究了使用 BERT 等语言模型进行预训练,并 fine-tuning 在不同任务上的应用。通过可视化损失函数和优化轨迹,本研究得出:预训练可以在不同任务上发现较好的初始参数点,这有利于 fine-tuning 得到更宽的稳定最优解,更好地实现泛化,而且 BERT 在 fine-tuning 过程中具有较强的鲁棒性。BERT 的下层更具有不变性且能学习到更具传递性的语言表示。