本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
本文研究了针对机器学习分类器的黑盒攻击,其中每个向模型的查询都会给对手带来一些代价或检测风险。我们的重点是将查询次数最小化作为主要目标。具体而言,我们考虑了在最小化查询次数的同时遵守特征修改成本预算的机器学习分类器攻击问题。我们描述了一种利用贝叶斯优化来最小化查询次数的方法,并发现,在特征修改成本预算较低的情况下,与随机策略相比,查询次数可以减少到大约原来的十分之一。
Dec, 2017
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
通过对威胁模型建立一个新的分类系统,本研究揭示了各种黑盒攻击的未被充分探索的威胁空间,强调了对攻击成功率进行更真实评估的重要性。
Oct, 2023
提出了一种新的针对硬标签的黑盒攻击的优化方法,利用经预训练的替代模型指导优化过程,实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率,攻击成功率较基准测试提高了约 5 倍,特别是在 100 和 250 个查询预算下。
Mar, 2024
本文提出了一个名为 ParaphraseSampler 的新样本采样技术,通过进行句子级别的改写,应用了一种新的修改标准 —— 句子级威胁模型,并在 6 个数据集上进行了实验。结果表明,许多重写的句子都被分类器误分类,并且我们的 ParaphraseSampler 比基线攻击成功率更高。
Oct, 2020
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。
本文通过定义三种现实世界分类系统的威胁模型(查询限制,部分信息和仅标签),并开发了新的攻击方法,成功的攻击了一个 ImageNet 分类器,并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。
Apr, 2018