ReinforceBug：生成对抗文本样本的框架

ACLMar, 2021

ReinforceBug：生成对抗文本样本的框架

ReinforceBug: A Framework to Generate Adversarial Textual Examples

Bushra Sabir, M. Ali Babar, Raj Gaire

TL;DR本文提出了一种基于强化学习框架的 ReinforceBug 方法，可以生成保持功能等效性和语义相似性的可转移的 Adversarial Examples ，目标模型平均置信度为错误预测，与 TextFooler 相比，攻击成功率平均提高 10％，在其他模型上具有平均 46％的成功率。

Abstract

adversarial examples (AEs) generated by perturbing original training examples are useful in improving the robustness of deep learning (DL)

adversarial examples deep learning reinforcement learning transferability robustness

发现论文，激发创造

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

文本分类器的对抗攻击的约束执行奖励

通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

May, 2024

SSCAE -- 语义、句法和上下文感知的自然语言对抗样本生成器

提出了一种名为 SSCAE 的自然语言生成器模型，它是一种实用且高效的对抗性攻击模型，能够生成具有语义、句法和上下文感知的自然语言对抗性示例，通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。

Mar, 2024

通过集成方法实现可转移音频对抗攻击

本研究旨在探究对深度学习语音识别中对抗性样本传递性的影响因素，发现图像与语音识别中对抗性样本传递性的巨大差异，并提出了基于随机梯度集成和动态梯度加权集成的两种新方法，获得了有效的传递性。

Apr, 2023

对对抗传递性的可靠评估

本文重新评估了 12 种常见的对抗样本转移攻击方法，得出结论：对抗转移性经常被高估，在不同的流行模型之间不存在能够传递的单个对抗样本，并提出了一个可靠的基准，包括三个评估协议，以便未来的研究。

Jun, 2023

ARAE：对抗性训练的自编码器提高了新颖性检测

本文提出了一种新型自编码器，利用对抗鲁棒性来学习更具语义意义的特征以在新颖性检测问题中更好地重建正常数据，并提出奖励惩罚机制以解决自编码器过于泛化的问题，实验证明该方法在三个基准数据集上超越或与最先进的方法相竞争。

Mar, 2020

基于语义矛盾检测对抗样本：你看到的不是网络看到的

本研究提出了一种基于 ContraNet 框架和 metric learning 的新型 adversarial examples 检测方法，具有识别能力强、鲁棒性高和易于与其他防御技术相结合等优点。

Jan, 2022

基于 BERT 的文本分类对抗样本

本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

鹦鹉训练的对抗样本：推动黑盒音频攻击对话者识别模型的实践性

通过最小化黑箱攻击者对目标说话者识别模型的了解，我们提出了一种新机制，称为鹦鹉训练，通过生成听起来像目标说话者的合成语音样本来针对目标模型生成对抗样本，并在联合可迁移性和感知质量框架下研究不同的方法来生成具有高可迁移性和良好人类知觉质量的对抗样本。在真实世界的实验中，得到的对抗样本在数字线路场景中对开源模型的攻击成功率为 45.8% - 80.8%，在无线场景中对包括苹果 HomePod（Siri），亚马逊 Echo 和谷歌 Home 在内的智能设备的攻击成功率为 47.9% - 58.3%。

Nov, 2023