文本分类器通用对抗策略

Jun, 2022

A Universal Adversarial Policy for Text Classifiers

Gallil Maimon, Lior Rokach

TL;DR我们引入了一种新的通用对抗策略，通过在多个文本上学习一个单一的搜索策略，可以成功地找到通用的对抗样本，该策略基于与文本领域相关的名称替换和语义保留文本修改，并使用强化学习来提取强基线方法。

Abstract

Discovering the existence of universal adversarial perturbations had large theoretical and practical impacts on the field of adversarial learning. In the →

universal adversarial perturbations adversarial learning text domain universal adversarial policy semantics preserving text alterations

发现论文，激发创造

语音命令分类任务中的通用对抗样本

本文研究了语音指令分类中存在的通用扰动问题，并提出了新的分析框架以测量扰动引入的畸变量。研究表明，通用攻击在不同模型中都能够实现，并且引入的畸变量随着普适性级别的提高而降低。同时，作者指出现有方法在解决语音领域的问题时存在不现实性。

Nov, 2019

通用对抗训练

本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法，提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性，并提出了一种通用对抗性训练来生成抗干扰的分类器。

Nov, 2018

通用对抗攻击综述

本研究总结了最近在通用对抗攻击领域里取得的进展，讨论了攻击和防御方面的挑战以及通用对抗攻击存在的原因，旨在成为一项动态研究，不定期更新其内容，包括图像、音频、视频和文本等多个领域，欢迎该领域的作者联系我们，以纳入您的新发现。

Mar, 2021

使用自然触发器的通用文本对抗攻击

利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术，对现代文本分类器进行了对抗攻击，生成的词组比先前模型更接近自然的英语短语，并能在被加入到输入文本后成功混淆分类器，并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到，并推动防御技术的发展。

May, 2020

使用共享对抗训练来防御通用扰动

本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题，并在图像分类和语义分割方面展示了结果。

Dec, 2018

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

通用对抗性音频扰动

本文展示了普适对抗扰动的存在，基于一些新提出的方法，使用惩罚公式可以成功实现针对音频分类体系结构的有目标攻击和无目标攻击。

Aug, 2019

使用生成模型学习通用对抗扰动

本文介绍了一种生成网络 —— 通用对抗网络，它可以在数据集中添加生成输出并欺骗目标分类器，从而提高通用对抗攻击的效果。

Aug, 2017