ICMLMay, 2021

通过对抗训练和预训练改进 OOD 泛化

TL;DR本文利用 Wasserstein 距离定义了 out-of-distribution(OOD)一般化,理论上证明对输入扰动具有鲁棒性的模型可以在 OOD 数据上一般化;在图像分类和自然语言理解任务上进行了实证验证,并进一步理论证明了在预训练和微调范式中,更具扰动输入鲁棒性的预训练模型可以更好地初始化在下游 OOD 数据的泛化,实验证明在经过微调后,这种通过对抗训练预训练的更好初始化的模型也有更好的 OOD 一般化。