本文提出两种反应式方法来检测 NLP 中的文字对抗样本,使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。
Apr, 2022
本研究提出了一种新的对抗性样本检测器,使用情感分析和神经网络中的隐藏层特征映射来对检测模型进行优化。实验结果表明,该检测器在检测对 ResNet 和 Inception 中性网络在 CIFAR-10、CIFAR-100 和 SVHN 数据集上最新攻击时,优于目前的检测算法,仅具有约 200 万参数,耗时少于 4.6 毫秒。
May, 2023
综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战,提出了一种新的分类方法,介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用,并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。
Mar, 2022
该研究综述了最近针对文本深度神经网络攻击的研究。通过研究,讨论了现有攻击对文本数据不可直接应用的问题,并提出了关于这个话题的建议。
Jan, 2019
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
该论文针对自然语言处理(NLP)中的对抗训练的方法应用于词嵌入空间进行改进,使其具有可解释性,从而实现在任务执行时的性能提升。
May, 2018
本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器,该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入,并显示出极强的泛化能力。
本研究探索了一种新的文本诱骗攻击方式,使用对人眼不可见的编码特定干扰,攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型,破坏了系统的性能,提出了输入净化的需求。
Jun, 2021
通过使用分类器的梯度,我们创建了一个衡量文本分类器鲁棒性的框架。
May, 2024
本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架,并通过对抗训练进一步加强了受害模型的预测,使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。
Oct, 2020