Feb, 2024

伪装即一切所需:评估和增强语言模型抵御伪装对抗攻击的鲁棒性

TL;DR采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性,使性能下降最多为 5%。然而,模型的性能与鲁棒性之间存在一种权衡关系,进一步的研究仍然需要进行。