文本中健壮的深度神经网络: 一项调查

Feb, 2019

文本中健壮的深度神经网络: 一项调查

A survey on Adversarial Attacks and Defenses in Text

Wenqi Wang, Benxiao Tang, Run Wang, Lina Wang, Aoshuang Ye

TL;DR本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Abstract

deep neural networks (DNNs) have shown an inherent vulnerability to adversarial examples which are maliciously crafted on real examples by attackers, aiming at making target DNNs misbehave. The threats of

发现论文，激发创造

评估深度神经网络上对抗样本的威胁

研究深度神经网络面临的潜在安全威胁——对抗性样本，这些输入看起来很正常，但会导致深度神经网络错误分类；发现通过正常的图像获取进程实现的小扰动可以消除对抗性样本造成的影响，从而抵消了潜在威胁。同时，已经广泛使用的多次裁剪平均处理和正常预处理也可以在很大程度上消除对抗性样本。因此，该研究认为在文本分类中，对抗性样本仅仅是学术上的好奇现象，而非安全威胁。

Oct, 2016

深度学习中的对抗性示例：攻击与防御

本文研究深度学习中的对抗样本问题，总结了生成对抗样本的方法，提出了对抗样本的应用分类，并探讨了对抗样本的攻击和防御策略以及面临的挑战和潜在解决方案。

Dec, 2017

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

图像、图表和文本中的对抗攻击和防御: 一项综述

本文综述了目前三种最常见的数据类型（图片、图表和文本）中，针对深度神经网络的攻击和防御机制，并评估了相应的对策的成功度。

Sep, 2019

现代机器学习中的对抗样本：一次回顾

本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨，并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。

Nov, 2019

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对NLP中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

评估文本分类对词性对抗样本的鲁棒性

本研究针对文本分类系统在对抗样本面前表现不佳的问题，探索了不同词性对分类器的影响。通过实验，发现CNN算法对某些词性标记存在明显的偏见，揭示了其在语言处理能力方面的关键脆弱性。这一发现为提升文本分类系统的鲁棒性提供了新的视角和改进方向。

Aug, 2024