关于通过扰动潜在表示进行文本分类的对抗性示例

May, 2024

关于通过扰动潜在表示进行文本分类的对抗性示例

On Adversarial Examples for Text Classification by Perturbing Latent Representations

Korn Sooksatra, Bikram Khanal, Pablo Rivas

TL;DR通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

Abstract

Recently, with the advancement of deep learning, several applications in text classification have advanced significantly. However, this improvement comes with a cost because deep learning is vulnerable to

deep learning text classification adversarial examples robustness framework

发现论文，激发创造

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

文本分类器中的对抗攻击与维度

机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一，通过在测试样本中引入微小和结构化的扰动，对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例，探究了对抗性容易受到攻击的原因，特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性，利用这种敏感性设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击，我们在多个数据集上测试了其有效性。我们还研究了使用不同距离度量来衡量对抗性扰动的问题。对于所有上述研究，我们在具有不同维度的多个模型上进行了测试，并使用词向量级对抗性攻击来证实这些发现。

Apr, 2024

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

分析对可解释机器学习的敌对样本的影响

本文分析对文本分类问题中的解释模型造成的对抗攻击的影响，包括开发一个基于机器学习的分类模型，引入对抗性扰动来理解分类性能，并在攻击之前和之后分析和解释模型的可解释性。

Jul, 2023

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

对抗性攻击如何干扰表面稳定准确的分类器

通过对高维度输入数据的实践系统进行观察，我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性，以及随机扰动的鲁棒性同时易受影响的基本特性，证实了这一现象。然而，令人惊讶的是，即使对于分类器决策边界与训练和测试数据之间只有很小的边距，也很难通过随机取样的扰动来检测到对抗性示例，因此需要更严格的对抗性训练。

Sep, 2023

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

解释和利用对抗样本

机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响，该现象不同于过拟合和非线性，但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。

Dec, 2014