AAAIDec, 2020

在硬标签黑盒设置中生成自然语言攻击

TL;DR该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。