显著关注和语义相似性驱动的对抗扰动

Jun, 2024

显著关注和语义相似性驱动的对抗扰动

Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation

Hetvi Waghela, Jaydip Sen, Sneha Rakshit

TL;DR本研究提出了一种增强型的文本对抗攻击方法，称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意力和语义相似性，提高了上下文扰动的效果。实验证明，SASSP 不仅生成高度语义保真的对抗样本，而且有效地欺骗了最先进的自然语言处理模型。

Abstract

In this paper, we introduce an enhanced textual adversarial attack method, known as saliency attention and semantic similarity driven adve

sassp saliency attention semantic similarity contextual perturbation adversarial attack

发现论文，激发创造

一个基于词显著性的修改式对抗攻击文本分类模型的方法

本研究提出了一种新颖的针对文本分类模型的对抗攻击方法，即修改的基于词显著性的对抗攻击（MWSAA）。该技术利用词显著性的概念，有针对性地扰乱输入文本，旨在误导分类模型，同时保持语义连贯性。通过改进传统的对抗攻击方法，MWSAA 在逃避分类系统检测方面显著提高了效果。该方法首先通过显著性估计过程识别输入文本中的显著词，这些词对模型的决策过程影响最大。随后，这些显著词会经过经过精心设计的修改，根据语义相似度度量进行指导，以确保修改后的文本保持连贯并保留其原始含义。在各种文本分类数据集上进行的实证评估表明，所提出的方法能够生成成功欺骗最先进的分类模型的对抗性示例。与现有的对抗攻击技术进行的比较分析进一步指出了所提方法在攻击成功率和文本连贯性保持方面的优越性。

Mar, 2024

文本对抗攻击中的语义保护

通过介绍 Semantics-Preserving-Encoder (SPE), 提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单，全监督的句子嵌入技术，结果表明 SPE 显著提高了对抗性攻击的质量。

Nov, 2022

基于频率的语义相似性不可察觉对抗攻击

通过在特征表示上进行对抗攻击，使用语义相似性对分类器进行攻击，同时使用低频率约束，保证对抗样本和原始样本的感官相似性和跨数据集泛化。

Mar, 2022

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的 CLIP 模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023

抵御语义保护的对抗性攻击的鲁棒深度学习模型

本文使用语义保持的敌对攻击机制（SPA 攻击）研究了深度学习模型对联合扰动的鲁棒性，使用属性调节器生成自然可理解的扰动并使用噪声生成器生成不同敌对噪声，并结合此类扰动来生成联合扰动样本以用于深度学习模型的鲁棒性训练。实验结果表明，SPA 攻击会使性能下降，并且优于现有的防御方法。

Apr, 2023

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

揭示自注意机制的漏洞

通过精心设计的注意力掩码，我们提出了强大的扰动技术 “HackAttend”，通过故意扰乱 SA 矩阵中的注意力分数，揭示了当前最先进的预训练语言模型在注意力微扰下的高度脆弱性，以及我们引入的新型平滑技术 “S-Attend” 在面对各种文本攻击时实现了与对抗训练相当的鲁棒性。

Feb, 2024