本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
本研究提出 DANCin SEQ2SEQ,一种基于强化学习的算法来生成文本领域黑盒分类器的对抗样本,旨在探究模型的假设与漏洞。实验表明该算法能够初步但有前途地生成有意义的对抗性文本样本。
Dec, 2017
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在20名人类注释者中得到92.3%的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
该研究综述了最近针对文本深度神经网络攻击的研究。通过研究,讨论了现有攻击对文本数据不可直接应用的问题,并提出了关于这个话题的建议。
Jan, 2019
本文研究自然语言处理模型的健壮性问题,尤其是同义词识别模型在面对修改后的场景下健壮性存在显著问题。通过引入新的共享词汇的修改方式,结合优化算法,进行了大量实验验证。最后,着重讲解了对抗训练方法对提升模型健壮性的帮助。
Sep, 2019
本研究提出了一种基于BERT掩码语言模型的背后攻击方法(BAE),用于生成自然、语义和语法准确的对抗性示例,比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。
Apr, 2020
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
通过使用分类器的梯度,我们创建了一个衡量文本分类器鲁棒性的框架。
May, 2024
通过强化学习算法训练的编码器-解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。
本研究针对文本分类系统在对抗样本面前表现不佳的问题,探索了不同词性对分类器的影响。通过实验,发现CNN算法对某些词性标记存在明显的偏见,揭示了其在语言处理能力方面的关键脆弱性。这一发现为提升文本分类系统的鲁棒性提供了新的视角和改进方向。
Aug, 2024