关于通过扰动潜在表示进行文本分类的对抗性示例
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019
机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一,通过在测试样本中引入微小和结构化的扰动,对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例,探究了对抗性容易受到攻击的原因,特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性,利用这种敏感性设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击,我们在多个数据集上测试了其有效性。我们还研究了使用不同距离度量来衡量对抗性扰动的问题。对于所有上述研究,我们在具有不同维度的多个模型上进行了测试,并使用词向量级对抗性攻击来证实这些发现。
Apr, 2024
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
本文分析对文本分类问题中的解释模型造成的对抗攻击的影响,包括开发一个基于机器学习的分类模型,引入对抗性扰动来理解分类性能,并在攻击之前和之后分析和解释模型的可解释性。
Jul, 2023
通过对高维度输入数据的实践系统进行观察,我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性,以及随机扰动的鲁棒性同时易受影响的基本特性,证实了这一现象。然而,令人惊讶的是,即使对于分类器决策边界与训练和测试数据之间只有很小的边距,也很难通过随机取样的扰动来检测到对抗性示例,因此需要更严格的对抗性训练。
Sep, 2023
本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查,并基于干扰单位对现有的对抗技术进行分类,从不同的自然语言处理任务的视角介绍了对抗技术,并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。
Feb, 2019
机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响,该现象不同于过拟合和非线性,但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。
Dec, 2014