Jun, 2023

自然语言对抗攻击中的样本易攻性

TL;DR本论文提出了一种针对 NLP 攻击的样本攻击性 / 鲁棒性的定义扩展,实验证明深度学习检测器可以更好地识别针对未知目标模型最易受攻击和最具鲁棒性的样本,但是不同 NLP 攻击方法中没有一致性,解释了攻击性检测方法在攻击方法之间缺乏可移植性的现象。