一个基于词显著性的修改式对抗攻击文本分类模型的方法

Mar, 2024

一个基于词显著性的修改式对抗攻击文本分类模型的方法

A Modified Word Saliency-Based Adversarial Attack on Text Classification Models

Hetvi Waghela, Sneha Rakshit, Jaydip Sen

TL;DR本研究提出了一种新颖的针对文本分类模型的对抗攻击方法，即修改的基于词显著性的对抗攻击（MWSAA）。该技术利用词显著性的概念，有针对性地扰乱输入文本，旨在误导分类模型，同时保持语义连贯性。通过改进传统的对抗攻击方法，MWSAA 在逃避分类系统检测方面显著提高了效果。该方法首先通过显著性估计过程识别输入文本中的显著词，这些词对模型的决策过程影响最大。随后，这些显著词会经过经过精心设计的修改，根据语义相似度度量进行指导，以确保修改后的文本保持连贯并保留其原始含义。在各种文本分类数据集上进行的实证评估表明，所提出的方法能够生成成功欺骗最先进的分类模型的对抗性示例。与现有的对抗攻击技术进行的比较分析进一步指出了所提方法在攻击成功率和文本连贯性保持方面的优越性。

Abstract

This paper introduces a novel adversarial attack method targeting text classification models, termed the Modified word saliency-based Adversarial At-tack (MWSAA). The technique builds upon the concept of

adversarial attack text classification models word saliency semantic coherence classification systems

发现论文，激发创造

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

显著关注和语义相似性驱动的对抗扰动

本研究提出了一种增强型的文本对抗攻击方法，称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意力和语义相似性，提高了上下文扰动的效果。实验证明，SASSP 不仅生成高度语义保真的对抗样本，而且有效地欺骗了最先进的自然语言处理模型。

Jun, 2024

单字更改足矣：为文本分类器设计攻击与防御

本文研究文本分类中单词扰动漏洞的问题，并提出了评估分类器鲁棒性、利用单词扰动漏洞的 SP-Attack 攻击方法以及通过数据增强提高分类器鲁棒性的 SP-Defense 方法。实验结果表明 SP-Defense 能将攻击成功率下降 30.4% 和 21.2%，而提高鲁棒性达到 14.6% 和 13.9%。同时，SP-Defense 还能降低多词扰动攻击成功率。

Jan, 2024

TextShield: 文本分类中超越成功检测攻击性句子

TextShield 是一种基于显著性信息的检测器和修正器相结合的文本防御方法，可以有效检测和转换输入文本中的对抗性语句。实验表明，TextShield 比同类方法具有更高的性能和更好的检测精度。

Feb, 2023

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

基于组合优化的词级文本对抗攻击

本文提出了一种新颖的攻击模型，采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法，实验结果表明该模型相对于基线方法在攻击成功率方面显著提高，可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。

Oct, 2019

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

基于显著性的防御对抗样本的方法（SAD）

本研究提出了一种基于视觉显著性的方法，用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策，并在相对减少清理后图像的损失的同时，通过评估各种指标的准确性来证明它的有效性。

Mar, 2020

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021