ACLMay, 2022
学会忽略对抗攻击
Learning to Ignore Adversarial Attacks
Yiming Zhang, Yangqiaoyu Zhou, Samuel Carton, Chenhao Tan
TL;DR使用理性模型可以成功在 BERT 和 RoBERTa 中提高超过 10% 的鲁棒性,显著忽略攻击词并在多个数据集上表现优异
Abstract
Despite the strong performance of current nlp models, they can be brittle
against adversarial attacks. To enable effective learning against adversarial
inputs, we introduce the use of →
发现论文,激发创造
理性化是否能提高稳健性?
本研究探讨了神经 NLP 模型的可解释性和鲁棒性之间的相互作用,试图通过有理化的过程来提高模型的鲁棒性,并针对五个不同的任务进行了实证评估。实验结果表明,理性模型有可能提高其鲁棒性,但它们在某些情况下会面临一定的挑战,并不总是表现得比无人为监督的模型更好。
Apr, 2022
从英雄到零:一项低级对抗攻击基准测试
本文提出了首个大规模的人类可理解的自然语言处理模型的低阶对抗模型目录和基准 (Z'eroe),共包括九种不同的攻击模式,证明当前主流的 RoBERTa 模型无法抵御这些攻击。该数据集可用于测试未来更像人类的 NLP 模型的鲁棒性。
Oct, 2020
破解、模仿、修复:通过生成人类攻击提高鲁棒性
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
上下文感知对命名实体识别的对抗攻击
我们提出了一种上下文感知对抗攻击方法,通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本,实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。
Sep, 2023
预训练语言模型应如何微调以提高对抗攻击鲁棒性?
针对预训练语言模型的敌对性攻击,提出了一种基于信息理论的对抗性微调方法(Robust Informative Fine-Tuning),强制模型在整个微调过程中保留预训练模型所学习的特征,并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。
Dec, 2021
学习攻击:朝着在现实场景中的文本对抗攻击
该研究旨在阐述在自然语言处理领域,利用强化学习的攻击模型可以从历史攻击中学习,更高效地发起攻击,并对多项任务进行对比,实验证明其在攻击性和效率方面均优于其他基线方法。
Sep, 2020