Feb, 2024
伪装即一切所需:评估和增强语言模型抵御伪装对抗攻击的鲁棒性
Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks
Álvaro Huertas-García, Alejandro Martín, Javier Huertas-Tato, David Camacho
TL;DR采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性,使性能下降最多为 5%。然而,模型的性能与鲁棒性之间存在一种权衡关系,进一步的研究仍然需要进行。