EMNLPOct, 2020

学习哪些特征重要:RoBERTa 最终掌握语言一般性

TL;DR这篇研究介绍了一种新的英文诊断集合 MSGs,通过测试预训练模型在微调时是否更偏向于使用语言特征而非表层泛化。研究发现,模型可以在很少的预训练数据情况下学会语言特征,但需要更多数据来学习偏向于使用语言泛化。最终,经过约 30B 个单词的预训练数据,RoBERTa-base 表现出了语言偏差,但我们认为自我监督预训练是学习有用的归纳偏差的有效方法,但是需要改善模型学习哪些特征重要的速度。