文本对抗样本的生成
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
本文提出了一个名为 ParaphraseSampler 的新样本采样技术,通过进行句子级别的改写,应用了一种新的修改标准 —— 句子级威胁模型,并在 6 个数据集上进行了实验。结果表明,许多重写的句子都被分类器误分类,并且我们的 ParaphraseSampler 比基线攻击成功率更高。
Oct, 2020
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022
该研究针对深度神经网络在恶意软件分类中存在的漏洞,通过对对抗样本进行有效构建的攻击,探讨如何构建在样本生成方面更具挑战性的更安全的模型。该研究表明,在对抗样本的制作方面,恶意软件分类与计算机视觉领域之间存在巨大的差异。本文还评估了潜在的防御机制对恶意软件分类的影响,并发现对抗样本的蒸馏和重新训练可以带来很有前途的结果。
Jun, 2016
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式,提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP,SoadNLP) 的研究重点应该放在考虑真实的对手目标,并以此为基础设计实际有用的攻击和防御方法,为此我们创建了一个新的数据集 Advbench,并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验,我们的方法表现获得了更高的实际价值,为 SoadNLP 的研究提供了一个新的基准。
Oct, 2022
本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查,并基于干扰单位对现有的对抗技术进行分类,从不同的自然语言处理任务的视角介绍了对抗技术,并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。
Feb, 2019