利用类别概率进行黑盒句级攻击

ACLFeb, 2024

Exploiting Class Probabilities for Black-box Sentence-level Attacks

Raha Moraffah, Huan Liu

TL;DR使用类概率以进行黑盒子句级攻击的新算法，通过与基准模型和基准数据集的比较进行全面评估，研究了类概率在攻击成功方面的有效性，并探讨了在黑盒子句级攻击中使用类概率是否值得或实用。

Abstract

sentence-level attacks craft adversarial sentences that are synonymous with correctly-classified sentences but are misclassified by the text clas

sentence-level attacks adversarial sentences text classifiers black-box setting class probabilities

发现论文，激发创造

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

对分类器的查询限制黑盒攻击

本文研究了针对机器学习分类器的黑盒攻击，其中每个向模型的查询都会给对手带来一些代价或检测风险。我们的重点是将查询次数最小化作为主要目标。具体而言，我们考虑了在最小化查询次数的同时遵守特征修改成本预算的机器学习分类器攻击问题。我们描述了一种利用贝叶斯优化来最小化查询次数的方法，并发现，在特征修改成本预算较低的情况下，与随机策略相比，查询次数可以减少到大约原来的十分之一。

Dec, 2017

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

黑匣子攻击评估中的陷阱

通过对威胁模型建立一个新的分类系统，本研究揭示了各种黑盒攻击的未被充分探索的威胁空间，强调了对攻击成功率进行更真实评估的重要性。

Oct, 2023

基于硬标签的小样本黑盒对抗攻击

提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。

Mar, 2024

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用

本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 ParaphraseSampler 比基线攻击成功率更高。

Oct, 2020

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

具有查询次数和信息限制的黑盒对抗攻击

本文通过定义三种现实世界分类系统的威胁模型（查询限制，部分信息和仅标签），并开发了新的攻击方法，成功的攻击了一个 ImageNet 分类器，并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。

Apr, 2018