提出了一种基于深度学习的方法来检测最易受到对抗攻击的样本,并且通过不同的模型和攻击方法进行评估。理解样本易受攻击性对未来研究中的样本选择任务具有重要意义。
Jan, 2023
综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战,提出了一种新的分类方法,介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用,并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。
Mar, 2022
该研究综述了最近针对文本深度神经网络攻击的研究。通过研究,讨论了现有攻击对文本数据不可直接应用的问题,并提出了关于这个话题的建议。
Jan, 2019
本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式,提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP,SoadNLP) 的研究重点应该放在考虑真实的对手目标,并以此为基础设计实际有用的攻击和防御方法,为此我们创建了一个新的数据集 Advbench,并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验,我们的方法表现获得了更高的实际价值,为 SoadNLP 的研究提供了一个新的基准。
Oct, 2022
本文通过提出一种异常检测器来评估预训练语言模型的鲁棒性,发现现有的对鲁棒性的评估方法是基于并不常见的对抗样本,进而将该方法用于数据增强和防御方案,取得了比其他方法更高的准确率。
对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题,本研究通过对 378 个人的实验调查,发现现有文本攻击在需要人类参与的实际场景中是不切实际的,从而得出应该把人类的感知度作为文本攻击的首要成功标准。
May, 2023
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法,用于制造可以轻易被误分类的针对深度神经网络的对抗样本,通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估,并提出了防御针对性攻击的初步方法。
Nov, 2015
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
本文介绍了如何将图像设计的策略移植到自然语言处理(NLP)领域,发现传统的图像领域的检测器并不适用于 NLP 领域,并提出一种基于文本嵌入的检测器来识别自然语言处理领域的对抗性样本。该检测器在许多任务上的表现优于传统的移植自图像领域的检测器和最新的 NLP 特定检测器。
Apr, 2022