Dec, 2021

预训练语言模型应如何微调以提高对抗攻击鲁棒性?

TL;DR针对预训练语言模型的敌对性攻击,提出了一种基于信息理论的对抗性微调方法(Robust Informative Fine-Tuning),强制模型在整个微调过程中保留预训练模型所学习的特征,并在情感分析和自然语言推理等多种NLP任务中的各种攻击中显著优于现有技术。