AAAIDec, 2020
在硬标签黑盒设置中生成自然语言攻击
Generating Natural Language Attacks in a Hard Label Black Box Setting
Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi
TL;DR该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。