Jan, 2024

抵御文本对抗攻击的快速对抗训练

TL;DR通过在嵌入空间进行单步扰动生成和扰动初始化的研究,我们提出了一种快速对抗训练(FAT)方法,以改善模型在无同义词感知情况下的鲁棒性,实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。