通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在20名人类注释者中得到92.3%的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
该研究综述了最近针对文本深度神经网络攻击的研究。通过研究,讨论了现有攻击对文本数据不可直接应用的问题,并提出了关于这个话题的建议。
Jan, 2019
本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查,并基于干扰单位对现有的对抗技术进行分类,从不同的自然语言处理任务的视角介绍了对抗技术,并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。
Feb, 2019
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对IMDB情感分类任务和AG新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
本文旨在探索检测针对NLP模型的对抗攻击的方法,提出基于密度估计的Competitive Baseline,并提供包括4个数据集上4种流行攻击方法和4种模型在内的数据集,以便进一步研究。
Mar, 2022
本文提出两种反应式方法来检测NLP中的文字对抗样本,使用分布特征学习表示的LID和MDRE方法取得了IMDB和MultiNLI数据集上字符级、词级、短语级攻击领域的最新成果。
Apr, 2022
针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。
Jul, 2022
通过使用分类器的梯度,我们创建了一个衡量文本分类器鲁棒性的框架。
May, 2024