AAAIMar, 2022

通过预测和解释来提高模型的稳健性的对抗训练

TL;DR本文提出了一种名为 FLAT 的特征级对抗性训练方法,该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致,从而提高模型对预测和解释方面的鲁棒性。