通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS,用于自然语言处理中的文本,并对单词级对抗操作进行了证明,实现了显著的准确性提升。
Jul, 2023
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
通过扩展受扩散过程启发的输入文本纯化方法,我们提出了一种名为 MaskPure 的新方法,无需对抗分类器进行训练且不需要攻击类型知识,它在同类防御方法中显示出卓越的稳健性和可靠性,同时证明了它的可证实稳健性。
Jun, 2024
本研究提出了一种针对补丁攻击的可验证防御机制,通过将可执行文件划分为非重叠的块,并采用多数投票的方式计算最终预测结果,从而最小化注入内容的影响。此外,引入了预处理步骤,将部分和标头的大小固定为块大小的倍数,从而确保恶意内容仅存在于整数个块中,同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究,结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性,优于文献中基于随机平滑的防御方法。
May, 2024
本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案,包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。
Feb, 2022
本研究提出了一种基于 Randomized Substitution and Vote 方法的文本对抗样本检测技术,该技术能够有效地检测文本对抗样本,同时不影响神经网络在正常样本上的分类精度。
Sep, 2021
通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现,相较于其他我们训练的深度神经网络模型(如 WordCNN 和 WordLSTM),经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后,我们发现经过对抗训练作为初始防御机制后,经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。
Feb, 2024
本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究,比较并提出了各种防御方法,最终提出了一种有效的方法提高神经文本分类器的鲁棒性,并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。
Aug, 2021
本文利用 Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型,该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率,远高于传统训练模型和数据增广训练模型的 8% 和 35%。
Sep, 2019