自然语言对抗攻击中的样本易攻性

Jun, 2023

自然语言对抗攻击中的样本易攻性

Sample Attackability in Natural Language Adversarial Attacks

Vyas Raina, Mark Gales

TL;DR本论文提出了一种针对 NLP 攻击的样本攻击性 / 鲁棒性的定义扩展，实验证明深度学习检测器可以更好地识别针对未知目标模型最易受攻击和最具鲁棒性的样本，但是不同 NLP 攻击方法中没有一致性，解释了攻击性检测方法在攻击方法之间缺乏可移植性的现象。

Abstract

adversarial attack research in natural language processing (NLP) has made significant progress in designing powerful attack methods and defence approaches. However, few efforts have sought to identify which sourc

adversarial attack natural language processing sample attackability deep learning portability

发现论文，激发创造

识别可对抗攻击和强鲁棒样本

提出了一种基于深度学习的方法来检测最易受到对抗攻击的样本，并且通过不同的模型和攻击方法进行评估。理解样本易受攻击性对未来研究中的样本选择任务具有重要意义。

Jan, 2023

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

对抗性扰动为什么应该是不可察觉的？重新思考对抗性自然语言处理的研究范式

本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式，提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP，SoadNLP) 的研究重点应该放在考虑真实的对手目标，并以此为基础设计实际有用的攻击和防御方法，为此我们创建了一个新的数据集 Advbench，并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验，我们的方法表现获得了更高的实际价值，为 SoadNLP 的研究提供了一个新的基准。

Oct, 2022

区分自然和非自然对抗样本以获得更强大的预训练语言模型

本文通过提出一种异常检测器来评估预训练语言模型的鲁棒性，发现现有的对鲁棒性的评估方法是基于并不常见的对抗样本，进而将该方法用于数据增强和防御方案，取得了比其他方法更高的准确率。

Mar, 2022

人类如何感知对抗文本？关于基于单词的对抗攻击的有效性和自然性的现实检验

对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题，本研究通过对 378 个人的实验调查，发现现有文本攻击在需要人类参与的实际场景中是不切实际的，从而得出应该把人类的感知度作为文本攻击的首要成功标准。

May, 2023

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

深度学习在对抗环境中的局限性

本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法，用于制造可以轻易被误分类的针对深度神经网络的对抗样本，通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估，并提出了防御针对性攻击的初步方法。

Nov, 2015

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

基于残留的自然语言对抗攻击检测

本文介绍了如何将图像设计的策略移植到自然语言处理（NLP）领域，发现传统的图像领域的检测器并不适用于 NLP 领域，并提出一种基于文本嵌入的检测器来识别自然语言处理领域的对抗性样本。该检测器在许多任务上的表现优于传统的移植自图像领域的检测器和最新的 NLP 特定检测器。

Apr, 2022