不必担心小事，将其分类：样本屏蔽以保护文本分类器免受对抗性攻击

ACLMay, 2022

不必担心小事，将其分类：样本屏蔽以保护文本分类器免受对抗性攻击

Don't sweat the small stuff, classify the rest: Sample Shielding to protect text classifiers against adversarial attacks

PDF

Jonathan Rusert, Padmini Srinivasan

TL;DR本文提出了一种新颖的文本分类防御策略 Sample Shielding。该方法在不需要重新配置分类器或外部资源的情况下，对三种流行的深度学习文本分类器进行防御攻击，并在三个数据集中测试其鲁棒性。通过样本选择和分类来实现决策，避免了现有防御策略的关键漏洞。

Abstract

deep learning (DL) is being used extensively for text classification. However, researchers have demonstrated the vulnerability of such classifiers to →

deep learning text classification adversarial attacks sample shielding sota attackers

发现论文，激发创造

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

TextShield: 文本分类中超越成功检测攻击性句子

TextShield 是一种基于显著性信息的检测器和修正器相结合的文本防御方法，可以有效检测和转换输入文本中的对抗性语句。实验表明，TextShield 比同类方法具有更高的性能和更好的检测精度。

Feb, 2023

SHIELD: 用随机多专家修补程序防御文本神经网络遭受多种黑盒对抗攻击

提出一种名为 SHIELD 的算法，将文本神经网络的最后一层进行修改和重新训练，形成一种加权多专家预测头的随机加权集合，从而混淆攻击者并进一步提高模型准确率。

Nov, 2020

文本对抗样本的生成

本文提出一种基于文本样本的对抗样本生成算法，通过删除、替换或添加一些关键词来修改原始的文本样本，解决了检测对抗样本的难题，并且通过在 IMDB 电影评论数据集进行实验，证明了本文所提出的方法的有效性。

Jul, 2017

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

构建鲁棒的毒性预测模型

最近的自然语言处理文献很少关注毒性语言预测器的稳健性，而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap，通过引入小的单词级扰动来欺骗最先进的文本分类器，将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略，实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计，ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明，SOTA 的毒性文本分类器确实容易受到这种攻击的影响，在多标签情况下攻击成功率超过 98％。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性，即使面对未知的攻击。

Apr, 2024

通过随机平滑技术实现对深度学习恶意软件检测器的实用防御

基于深度学习的恶意软件检测器对于被有意修改以逃避检测的恶意软件实例，即对抗性恶意软件实例，显示出易受攻击。为了应对深度学习检测器的这种脆弱性，我们提出了一个受随机平滑启发的针对对抗性恶意软件实例的实用防御方案。该方案使用随机消融平滑的方式训练基于消融版本的可执行文件的基础分类器，在测试时，根据分类器对原始可执行文件的一组消融版本进行的预测，将给定输入可执行文件的最常见预测类作为最终分类。实验证明，相比未经平滑处理的分类器，我们提出的基于消融的模型在 BODMAS 数据集上对各种最先进的规避攻击表现出更高的鲁棒性和泛化能力。

Aug, 2023

基于 (De) Randomized Smoothing 的深度学习恶意软件检测器的对抗鲁棒性

深度学习恶意软件检测器容易受到对抗性恶意软件样本的攻击，我们提出了一种受（去）随机化平滑启发的针对对抗性恶意软件样本的实用防御方案，通过选择相关的字节子集来降低恶意软件作者注入的对抗性内容的采样概率，而不像计算机视觉领域中一样使用高斯噪声来随机化输入。我们提出了两种确定用于分类的块位置的策略：（1）随机选择块的位置和（2）选择连续相邻的块。我们的研究结果显示，基于块的平滑分类器对使用最新的对抗性恶意软件逃避攻击生成的对抗性恶意软件示例表现出更高的韧性，明显优于非平滑分类器和基于随机化平滑的分类器。

Feb, 2024

不同威胁模型下 SHIELD 的效能

本文评估用于对抗敌对攻击的压缩式防御框架 SHIELD 的效力，并在原有工作的基础上考虑了替代威胁模型，提出了具有不同危险程度的情况，并通过实验结果得出了在白盒和灰盒情景下训练模型的相关性与承受目标攻击成功率的相关性，证明了从零开始训练模型的更强鲁棒性。

Feb, 2019

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024