文本分类器的对抗攻击的约束执行奖励

May, 2024

文本分类器的对抗攻击的约束执行奖励

A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers

Tom Roth, Inigo Jauregi Unanue, Alsharif Abuadbba, Massimo Piccardi

TL;DR通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

Abstract

text classifiers are vulnerable to adversarial examples -- correctly-classified examples that are deliberately transformed to be misclassified while satisfying acceptability constraints. The conventional approach

text classifiers adversarial examples combinatorial optimization pre-trained language model reinforcement learning

发现论文，激发创造

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用

本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 ParaphraseSampler 比基线攻击成功率更高。

Oct, 2020

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

度量指导的对抗式句子生成

本文提出了一个 rewrite and rollback（R&R）框架，该框架通过优化批判分数来改进对抗样例的质量，结合流畅度、相似性和错分类度量，提高了对抗样例的质量，并在 5 个代表性数据集和 3 种分类器架构上进行了评估，攻击成功率分别增加了 + 16.2％，+12.8％和 + 14.0％。

Apr, 2021

对比对抗训练改进的文本分类

该研究提出了一种正则化 Transformer-based 编码器 fine-tuning 用于文本分类任务的通用方法，并通过对干净和对抗性示例的对比学习来实现噪声不变表示，从而得到更好的文本分类效果。

Jul, 2021

通过对比学习和自编码器来改善基于梯度的文本分类对抗训练

本文提出了两种新的对抗训练方法：一种是在表示空间中缩小原始样本和其对抗样本的距离，同时扩大其与不同标记样本的距离；另一种是将模型迫使在对抗性表示下重构原始样本，实验证明这两种方法在各种文本分类数据集上优于强基线。分析实验证明，我们的方法可以有效提高模型的抗打击能力，同时不显著影响输入句子的语义表示。

Sep, 2021