基于残留的自然语言对抗攻击检测

Apr, 2022

基于残留的自然语言对抗攻击检测

Residue-Based Natural Language Adversarial Attack Detection

Vyas Raina, Mark Gales

TL;DR本文介绍了如何将图像设计的策略移植到自然语言处理（NLP）领域，发现传统的图像领域的检测器并不适用于 NLP 领域，并提出一种基于文本嵌入的检测器来识别自然语言处理领域的对抗性样本。该检测器在许多任务上的表现优于传统的移植自图像领域的检测器和最新的 NLP 特定检测器。

Abstract

deep learning based systems are susceptible to adversarial attacks, where a small, imperceptible change at the input alters the model prediction. However, to date the majority of the approaches to detect these at

deep learning adversarial attacks image processing systems natural language processing detector

发现论文，激发创造

基于数据表示的分布特征检测文本对抗攻击样本

本文提出两种反应式方法来检测 NLP 中的文字对抗样本，使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。

Apr, 2022

基于情感分析的新对抗图像检测

本研究提出了一种新的对抗性样本检测器，使用情感分析和神经网络中的隐藏层特征映射来对检测模型进行优化。实验结果表明，该检测器在检测对 ResNet 和 Inception 中性网络在 CIFAR-10、CIFAR-100 和 SVHN 数据集上最新攻击时，优于目前的检测算法，仅具有约 200 万参数，耗时少于 4.6 毫秒。

May, 2023

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

文本输入嵌入空间的可解释对抗扰动

该论文针对自然语言处理（NLP）中的对抗训练的方法应用于词嵌入空间进行改进，使其具有可解释性，从而实现在任务执行时的性能提升。

May, 2018

那是可疑的反应！”：解读分类器得分变化以检测自然语言处理对抗攻击

本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器，该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入，并显示出极强的泛化能力。

Apr, 2022

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

结构化预测模型的对抗攻击和防御

本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架，并通过对抗训练进一步加强了受害模型的预测，使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。

Oct, 2020