文本分类中鉴别扰动以阻挠对抗性攻击的学习

Sep, 2019

文本分类中鉴别扰动以阻挠对抗性攻击的学习

Learning to Discriminate Perturbations for Blocking Adversarial Attacks in Text Classification

Yichao Zhou, Jyun-Yu Jiang, Kai-Wei Chang, Wei Wang

TL;DR本文提出了一种名为学习鉴别扰动 (DISP) 的新框架，用于识别和调整恶意扰动，以此来阻止文本分类模型的对抗攻击。DISP 可以有效地阻止对任何 NLP 模型的对抗攻击，而无需修改模型结构或训练过程。在两个基准数据集上进行的广泛实验表明，DISP 在阻止文本分类的对抗攻击方面显著优于基准方法。此外，深入分析表明了 DISP 在不同情况下的鲁棒性。

Abstract

adversarial attacks against machine learning models have threatened various real-world applications such as spam filtering and sentiment analysis. In this paper, we propose a novel framework, learning to DIScrimi

adversarial attacks machine learning models text classification disp perturbation discriminator

发现论文，激发创造

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

文本对抗防御的反应性摄动去焦

利用 Reactive Perturbation Defocusing 的方法来降低基于大型预训练语言模型的恶意攻击，在保证对自然样本性能影响最小的基础上，成功修复了高达 97% 的对抗样本，并提供了基于我们工作的对抗性检测和修复的演示。

May, 2023

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022

通过对抗扰动的对比视频表示学习

此篇论文提出一种新的对比学习方法 —— 用对抗性扰动来构建负样本，以生产改进后的视频表征，并使用斯蒂费尔流形上的黎曼优化方法以实现子空间学习目标，最终产生具有较好鲁棒性的视频表征。

Jul, 2018

离散对抗训练实现模型的鲁棒性

本文提出离散对抗攻击的在线增强方法，使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本，结果表明使用随机抽样方法能够显著提高鲁棒性，而且比之前使用的离线增强方法速度提高了约 10 倍。

Apr, 2021

虚拟对抗性离散扰动一致性训练

通过添加离散噪音的扰动方法，可以更有效地将模型的决策边界推向具有抵抗干扰能力的点，并在半监督文本分类任务和鲁棒性基准测试中，优于其他基于文本编辑、释义或连续噪音的一致性训练基线方法。

Apr, 2021

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

文本输入嵌入空间的可解释对抗扰动

该论文针对自然语言处理（NLP）中的对抗训练的方法应用于词嵌入空间进行改进，使其具有可解释性，从而实现在任务执行时的性能提升。

May, 2018

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021