Aug, 2023

LimeAttack: 文本硬标记对抗攻击的本地可解释方法

TL;DR利用局部可解释方法近似计算词重要性排名,并采用束搜索算法寻找最优解的一种新型硬标签攻击算法 LimeAttack 在相同查询预算下实现更好的攻击性能。此外,我们评估了 LimeAttack 对大语言模型的有效性,并发现对大语言模型威胁仍然显著。LimeAttack 生成的对抗样本具有很高的可迁移性,并通过对抗训练有效提高了模型的鲁棒性。