May, 2021

通过对抗训练和预训练改进OOD泛化

TL;DR本文利用Wasserstein距离定义了out-of-distribution(OOD)一般化,理论上证明对输入扰动具有鲁棒性的模型可以在OOD数据上一般化;在图像分类和自然语言理解任务上进行了实证验证,并进一步理论证明了在预训练和微调范式中,更具扰动输入鲁棒性的预训练模型可以更好地初始化在下游OOD数据的泛化,实验证明在经过微调后,这种通过对抗训练预训练的更好初始化的模型也有更好的OOD一般化。