该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
本研究探索了一种新的文本诱骗攻击方式,使用对人眼不可见的编码特定干扰,攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型,破坏了系统的性能,提出了输入净化的需求。
Jun, 2021
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究,旨在提高模型的鲁棒性。
Dec, 2019
通过使用分类器的梯度,我们创建了一个衡量文本分类器鲁棒性的框架。
May, 2024
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
该研究提出了一种基于单独预测标签的敌对攻击 TextHacker,通过学习词汇替换对文本输出标签的影响来确定关键词汇,采用混合本地搜索和攻击历史估计词汇重要性来最小化被攻击文本所需的修改,该攻击在文本分类和文本蕴含方面具有显著的优越性。
在黑盒硬标签文本对抗攻击中,提出了一种名为 HQA-Attack 的简单而有效的框架,可以在有限的查询预算下生成高质量的文本对抗样本,具有高语义相似性和低扰动率。
Feb, 2024