通过随机替换编码技术防御词级对抗攻击

May, 2020

通过随机替换编码技术防御词级对抗攻击

Defense of Word-level Adversarial Attacks via Random Substitution Encoding

Zhaoyang Wang, Hongtao Wang

TL;DR本文研究深度神经网络在自然语言处理任务中遭受对抗攻击的问题，并提出一种名为随机替换编码（Random Substitution Encoding，RSE）的新型防御框架，该框架可以有效保护文本分类任务免受单词级别对抗攻击。

Abstract

The adversarial attacks against deep neural networks on computer vision tasks have spawned many new technologies that help protect models from avoiding false predictions. Recently, word-level →

adversarial attacks deep neural networks natural language processing random substitution encoding text classification

发现论文，激发创造

通过同义词编码的自然语言对抗防御

该研究提出了一种名为同义词编码方法（SEM）的深度学习模型对抗防御方法，该方法可以有效地防御基于同义词替换的攻击，并且可以轻松高效地扩展到大型模型和大型数据集中。

Sep, 2019

通过随机替换和投票检测文本对抗样本

本研究提出了一种基于 Randomized Substitution and Vote 方法的文本对抗样本检测技术，该技术能够有效地检测文本对抗样本，同时不影响神经网络在正常样本上的分类精度。

Sep, 2021

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

重新构建和集成：探索防御文本对抗的方法

提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击，通过重新构建机制训练鲁棒性模型，并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明，该方法能够提高在目前强对抗攻击方法下的准确性。

Mar, 2022

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

面向强鲁棒性神经机器翻译的对抗子词规范化

该研究通过提出对抗子单词规范化技术（ADVSR）探讨了在训练过程中是否可以使用梯度信号作为多样化子单词分割的替代标准，实验证明该技术可以有效地减少分割错误对神经机器翻译模型的影响，从而提高模型在低资源和外部数据集上的性能。

Apr, 2020

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

通过随机自集成实现鲁棒神经网络

本文提出了一种名为 RSE 的新型防御算法，利用随机性和集成两个重要概念，通过向神经网络中添加随机噪声层以防止强梯度攻击，并对随机噪声预测进行集成以稳定性能，从而保护目标模型。该算法在真实数据集上表现非常优异，能够有效防御对神经网络的攻击。

Dec, 2017