通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

May, 2021

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

Certified Robustness to Text Adversarial Attacks by Randomized [MASK]

Jiehang Zeng, Xiaoqing Zheng, Jianhan Xu, Linyang Li, Liping Yuan...

TL;DR本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

Abstract

Recently, few certified defense methods have been developed to provably guarantee the robustness of a text classifier to adversarial synonym substitutions. However, all existing →

certified defense methods text classifier adversarial attacks random masking randomized smoothing

发现论文，激发创造

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

MaskPure: 基于随机纯净化的文本对抗防御的改进

通过扩展受扩散过程启发的输入文本纯化方法，我们提出了一种名为 MaskPure 的新方法，无需对抗分类器进行训练且不需要攻击类型知识，它在同类防御方法中显示出卓越的稳健性和可靠性，同时证明了它的可证实稳健性。

Jun, 2024

基于机器学习的恶意软件检测器的认证对抗鲁棒性：(去) 随机平滑

本研究提出了一种针对补丁攻击的可验证防御机制，通过将可执行文件划分为非重叠的块，并采用多数投票的方式计算最终预测结果，从而最小化注入内容的影响。此外，引入了预处理步骤，将部分和标头的大小固定为块大小的倍数，从而确保恶意内容仅存在于整数个块中，同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究，结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性，优于文献中基于随机平滑的防御方法。

May, 2024

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

通过随机替换和投票检测文本对抗样本

本研究提出了一种基于 Randomized Substitution and Vote 方法的文本对抗样本检测技术，该技术能够有效地检测文本对抗样本，同时不影响神经网络在正常样本上的分类精度。

Sep, 2021

基于阿拉伯语同义词 BERT 的文本分类对抗样本

通过引入第一个阿拉伯语的词级研究，我们使用基于掩蔽语言建模任务的同义词替换攻击，评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性，并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现，相较于其他我们训练的深度神经网络模型（如 WordCNN 和 WordLSTM），经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后，我们发现经过对抗训练作为初始防御机制后，经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。

Feb, 2024

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

对抗性词语替换的可验证鲁棒性

本文利用 Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型，该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率，远高于传统训练模型和数据增广训练模型的 8% 和 35%。

Sep, 2019