重新评估自然语言中的对抗样本

Apr, 2020

Reevaluating Adversarial Examples in Natural Language

John X. Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi

TL;DR通过分析最先进程序的同义词替换攻击，本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束，并发现其扰动往往不能保持语义，而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性，一旦应用了相应的限制成功率会下降 70%。

Abstract

State-of-the-art attacks on nlp models lack a shared definition of a what constitutes a successful attack. We distill ideas from past work into a unified framework: a successful natural language adversarial example is a perturbation that fools the model and follows some linguistic cons

nlp models adversarial examples semantic preservation grammaticality synonym substitution attacks

发现论文，激发创造

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

识别生成单词级对抗样本的人类策略

本研究分析了人类如何生成针对细调 Transformer 模型的自然性和语法正确性保持的词级对抗性示例，通过探索人类工作者在生成过程中的行为模式，我们识别出人类更喜欢选择哪些单词进行对抗替换以及何时何地进行替换。研究结果可用于启发利用人类策略制定更强大的自然语言处理模型。

Oct, 2022

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

自然对手：自然对手是否能像人工对手一样有效？

本篇论文提出了一种两阶段对抗性样本生成框架（NaturalAdversaries），利用 token attribution 方法和生成模型，生成真实的自然语言文本，可以模拟在实际场景下模型的错误分类情况，概括了当前神经文本分类模型鲁棒性改进方向的研究前景。

Nov, 2022

文本对抗攻击中的语义保护

通过介绍 Semantics-Preserving-Encoder (SPE), 提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单，全监督的句子嵌入技术，结果表明 SPE 显著提高了对抗性攻击的质量。

Nov, 2022