不必担心小事,将其分类:样本屏蔽以保护文本分类器免受对抗性攻击
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
TextShield 是一种基于显著性信息的检测器和修正器相结合的文本防御方法,可以有效检测和转换输入文本中的对抗性语句。实验表明,TextShield 比同类方法具有更高的性能和更好的检测精度。
Feb, 2023
提出一种名为 SHIELD 的算法,将文本神经网络的最后一层进行修改和重新训练,形成一种加权多专家预测头的随机加权集合,从而混淆攻击者并进一步提高模型准确率。
Nov, 2020
本文提出一种基于文本样本的对抗样本生成算法,通过删除、替换或添加一些关键词来修改原始的文本样本,解决了检测对抗样本的难题,并且通过在 IMDB 电影评论数据集进行实验,证明了本文所提出的方法的有效性。
Jul, 2017
本文提出了一种随机遮挡的可证明鲁棒防御方法,对于 AGNEWS 数据集上五个词,SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性,并在多个数据集上明显优于最近提出的防御方法。
May, 2021
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略,实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计,ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明,SOTA 的毒性文本分类器确实容易受到这种攻击的影响,在多标签情况下攻击成功率超过 98%。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性,即使面对未知的攻击。
Apr, 2024
基于深度学习的恶意软件检测器对于被有意修改以逃避检测的恶意软件实例,即对抗性恶意软件实例,显示出易受攻击。为了应对深度学习检测器的这种脆弱性,我们提出了一个受随机平滑启发的针对对抗性恶意软件实例的实用防御方案。该方案使用随机消融平滑的方式训练基于消融版本的可执行文件的基础分类器,在测试时,根据分类器对原始可执行文件的一组消融版本进行的预测,将给定输入可执行文件的最常见预测类作为最终分类。实验证明,相比未经平滑处理的分类器,我们提出的基于消融的模型在 BODMAS 数据集上对各种最先进的规避攻击表现出更高的鲁棒性和泛化能力。
Aug, 2023
深度学习恶意软件检测器容易受到对抗性恶意软件样本的攻击,我们提出了一种受(去)随机化平滑启发的针对对抗性恶意软件样本的实用防御方案,通过选择相关的字节子集来降低恶意软件作者注入的对抗性内容的采样概率,而不像计算机视觉领域中一样使用高斯噪声来随机化输入。我们提出了两种确定用于分类的块位置的策略:(1)随机选择块的位置和(2)选择连续相邻的块。我们的研究结果显示,基于块的平滑分类器对使用最新的对抗性恶意软件逃避攻击生成的对抗性恶意软件示例表现出更高的韧性,明显优于非平滑分类器和基于随机化平滑的分类器。
Feb, 2024
本文评估用于对抗敌对攻击的压缩式防御框架 SHIELD 的效力,并在原有工作的基础上考虑了替代威胁模型,提出了具有不同危险程度的情况,并通过实验结果得出了在白盒和灰盒情景下训练模型的相关性与承受目标攻击成功率的相关性,证明了从零开始训练模型的更强鲁棒性。
Feb, 2019