那是可疑的反应！”：解读分类器得分变化以检测自然语言处理对抗攻击

ACLApr, 2022

那是可疑的反应！”：解读分类器得分变化以检测自然语言处理对抗攻击

"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks

Edoardo Mosca, Shreyash Agarwal, Javier Rando-Ramirez, Georg Groh

TL;DR本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器，该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入，并显示出极强的泛化能力。

Abstract

adversarial attacks are a major challenge faced by current machine learning research. These purposely crafted inputs fool even the most advanced models, precluding their deployment in safety-critical applications

adversarial attacks machine learning computer vision natural language processing detector

发现论文，激发创造

基于残留的自然语言对抗攻击检测

本文介绍了如何将图像设计的策略移植到自然语言处理（NLP）领域，发现传统的图像领域的检测器并不适用于 NLP 领域，并提出一种基于文本嵌入的检测器来识别自然语言处理领域的对抗性样本。该检测器在许多任务上的表现优于传统的移植自图像领域的检测器和最新的 NLP 特定检测器。

Apr, 2022

NatLogAttack：使用自然逻辑对自然语言推理模型进行攻击的框架

我们提出了基于逻辑形式主义的攻击模型 NatLogAttack，对自然逻辑进行系统攻击，生成更好的对抗性例子，并揭示了 NLI 模型的脆弱性。

Jul, 2023

人类如何感知对抗文本？关于基于单词的对抗攻击的有效性和自然性的现实检验

对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题，本研究通过对 378 个人的实验调查，发现现有文本攻击在需要人类参与的实际场景中是不切实际的，从而得出应该把人类的感知度作为文本攻击的首要成功标准。

May, 2023

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

赔率是否真的奇怪？绕过对抗性样本的统计检测

本文提出了基于统计学检测方法的分类器适应方法，提高了检测性能；并且提出了 Logit Mimicry Attack 方法生成对抗样本，通过该方法可以避开统计学检测和分类器方法；最后，通过该文献，可以证明对抗样本的检测，统计学检测和分类器检测都不具备鲁棒性。

Jul, 2019

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

基于数据表示的分布特征检测文本对抗攻击样本

本文提出两种反应式方法来检测 NLP 中的文字对抗样本，使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。

Apr, 2022

针对软定理证明器的逻辑一致性对抗攻击

通过提出一种新的生成对抗框架 LAVA，我们成功地生成了对抗性攻击，并发现了多个目标模型的全局漏洞，揭示出这些模型的推理能力的不完全掌握与逻辑漏洞，同时我们证明了在生成的样本上进行训练可以提高目标模型的性能。

Apr, 2022

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022