在硬标签黑盒设置中生成自然语言攻击

AAAIDec, 2020

在硬标签黑盒设置中生成自然语言攻击

Generating Natural Language Attacks in a Hard Label Black Box Setting

Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi

TL;DR该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Abstract

We study an important and challenging task of attacking natural language processing models in a hard label black box setting. We propose a decision-based attack strategy that crafts high quality adversarial examples on

adversarial examples natural language processing text classification population-based optimization model attacks

发现论文，激发创造

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

基于硬标签的小样本黑盒对抗攻击

提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。

Mar, 2024

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

黑盒环境下查询效率攻击的强基准

该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例，并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较，平均来说我们在所有数据集和目标模型中将查询次数降低了 75％。在受限查询设置中，与以前的攻击相比，我们的攻击成功率更高。

Sep, 2021

HQA-Attack: 面向文本黑盒硬标签高质量对抗攻击

在黑盒硬标签文本对抗攻击中，提出了一种名为 HQA-Attack 的简单而有效的框架，可以在有限的查询预算下生成高质量的文本对抗样本，具有高语义相似性和低扰动率。

Feb, 2024

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

低查询预算环境中，简单高效且硬标签黑盒对抗攻击

提出了一种使用贝叶斯优化来进行黑盒攻击的方法，通过在结构性低维子空间中搜索对抗样本来避免 BO 在高维度下的性能问题，实验结果显示该方法相较现有黑盒攻击算法需要更少的查询次数，并且攻击成功率提高了 2 到 10 倍。

Jul, 2020