重新构建和集成：探索防御文本对抗的方法

Mar, 2022

重新构建和集成：探索防御文本对抗的方法

Rebuild and Ensemble: Exploring Defense Against Text Adversaries

Linyang Li, Demin Song, Jiehang Zeng, Ruotian Ma, Xipeng Qiu

TL;DR提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击，通过重新构建机制训练鲁棒性模型，并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明，该方法能够提高在目前强对抗攻击方法下的准确性。

Abstract

adversarial attacks can mislead strong neural models; as such, in nlp tasks, substitution-based attacks are difficult to defend. Current <

adversarial attacks neural models nlp tasks defense methods rebuild and ensemble framework

发现论文，激发创造

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

基于词重要性熵的对抗文本检测

本文研究针对自然语言处理（NLP）模型的对抗攻击算法，发现攻击算法主要破坏文本中的单词重要性分布，基于此提出一种新的防御框架 TextDefense，利用目标模型的能力来检测对抗样本，不需要先验知识，并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。

Feb, 2023

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

通过随机替换编码技术防御词级对抗攻击

本文研究深度神经网络在自然语言处理任务中遭受对抗攻击的问题，并提出一种名为随机替换编码（Random Substitution Encoding，RSE）的新型防御框架，该框架可以有效保护文本分类任务免受单词级别对抗攻击。

May, 2020

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

基于令牌集成的文本生成：对自动 AI 生成文本检测的攻击

本文提出了一种新的令牌集合生成策略，用于挑战当前 AI 内容检测方法的鲁棒性。通过利用来自随机候选 LLMs 生成的下一个令牌完成提示，我们探索了集合攻击策略。我们发现令牌集合方法显著降低了 AI 内容检测模型的性能，揭示了令牌集合生成对当前检测模型构成重要挑战，并强调了推进检测技术以对抗复杂的敌对策略的需求。

Feb, 2024

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020