Dec, 2021
预训练语言模型应如何微调以提高对抗攻击鲁棒性?
How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness?
TL;DR针对预训练语言模型的敌对性攻击,提出了一种基于信息理论的对抗性微调方法(Robust Informative Fine-Tuning),强制模型在整个微调过程中保留预训练模型所学习的特征,并在情感分析和自然语言推理等多种NLP任务中的各种攻击中显著优于现有技术。