学会忽略对抗攻击

ACLMay, 2022

Learning to Ignore Adversarial Attacks

Yiming Zhang, Yangqiaoyu Zhou, Samuel Carton, Chenhao Tan

TL;DR使用理性模型可以成功在 BERT 和 RoBERTa 中提高超过 10% 的鲁棒性，显著忽略攻击词并在多个数据集上表现优异

Abstract

Despite the strong performance of current nlp models, they can be brittle against adversarial attacks. To enable effective learning against adversarial inputs, we introduce the use of →

nlp adversarial attacks rationale models bert roberta

发现论文，激发创造

理性化是否能提高稳健性？

本研究探讨了神经 NLP 模型的可解释性和鲁棒性之间的相互作用，试图通过有理化的过程来提高模型的鲁棒性，并针对五个不同的任务进行了实证评估。实验结果表明，理性模型有可能提高其鲁棒性，但它们在某些情况下会面临一定的挑战，并不总是表现得比无人为监督的模型更好。

Apr, 2022

从英雄到零：一项低级对抗攻击基准测试

本文提出了首个大规模的人类可理解的自然语言处理模型的低阶对抗模型目录和基准 (Z'eroe)，共包括九种不同的攻击模式，证明当前主流的 RoBERTa 模型无法抵御这些攻击。该数据集可用于测试未来更像人类的 NLP 模型的鲁棒性。

Oct, 2020

自然语言推理中假设偏见的对抗消除

本文探讨如何通过对手博弈学习在自然语言推断任务中减弱假设偏见和虚假关联，结果表明通过对手博弈学习得到的表征可能更加公正且与任务精度下降不大。

Jul, 2019

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

生成对抗性负面回复以提升响应排名与评估的鲁棒性

发展神经对话模型需要超越 “内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Jun, 2021

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

预训练语言模型应如何微调以提高对抗攻击鲁棒性？

针对预训练语言模型的敌对性攻击，提出了一种基于信息理论的对抗性微调方法（Robust Informative Fine-Tuning），强制模型在整个微调过程中保留预训练模型所学习的特征，并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。

Dec, 2021

极端误校准与对抗鲁棒性的错觉

深度学习自然语言处理（NLP）模型容易受到对抗性攻击，而测试时的温度缩放可提高真正的鲁棒性。

Feb, 2024

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020