从英雄到零:一项低级对抗攻击基准测试

Oct, 2020

从英雄到零:一项低级对抗攻击基准测试

From Hero to Zéroe: A Benchmark of Low-Level Adversarial Attacks

Steffen Eger, Yannik Benz

TL;DR本文提出了首个大规模的人类可理解的自然语言处理模型的低阶对抗模型目录和基准(Z'eroe)，共包括九种不同的攻击模式，证明当前主流的 RoBERTa 模型无法抵御这些攻击。该数据集可用于测试未来更像人类的 NLP 模型的鲁棒性。

Abstract

adversarial attacks are label-preserving modifications to inputs of machine learning classifiers designed to fool machines but not humans. natural language processing (NLP) has mostly focused on high-level attack

发现论文，激发创造

像人类一样进行文本处理：对自然语言处理系统进行视觉攻击和防御

本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法，在字符级别、单词级别和句子级别的任务中，神经模型和非神经模型的性能都会降低高达82%，并研究了三种防御方法——视觉字符嵌入、对抗性训练、基于规则的恢复——这些方法可显著提高模型的鲁棒性，但与攻击未发生时的性能相比仍有一定差距。

Mar, 2019

对抗性自然语言推理：自然语言理解新基准

介绍了一个通过迭代对抗人与模型的程序收集的大规模NLI基准数据集，并展示了训练模型在这个新数据集上将导致在各种流行的NLI基准测试中的最新性能，同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用，成为NLU的移动目标，而不是一个很快就会饱和的静态基准测试集。

Oct, 2019

重新评估自然语言中的对抗样本

通过分析最先进程序的同义词替换攻击，本文提出了成功自然语言攻击的定义——伪造的文本必须欺骗模型、遵守一些语言约束，并发现其扰动往往不能保持语义，而人类调查表明交换词汇的嵌入和原始/扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性，一旦应用了相应的限制成功率会下降 70%。

Apr, 2020

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

对抗GLUE：一个用于评估语言模型鲁棒性的多任务基准

本文提出Adversarial GLUE（AdvGLUE）——一个新的多任务基准，系统地将14种文本对抗攻击方法应用于GLUE任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Nov, 2021

Less is More: 通过n-gram频率降序理解基于单词级别的文本对抗攻击

本文通过分析n-gram频率解释文本攻击的有效性，提出仅依赖于此信息的模型无偏和梯度自由的对抗样本生成方法，进一步将其整合入凸包框架中以提高模型的鲁棒性。

Feb, 2023

人类如何感知对抗文本？关于基于单词的对抗攻击的有效性和自然性的现实检验

对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题，本研究通过对378个人的实验调查，发现现有文本攻击在需要人类参与的实际场景中是不切实际的，从而得出应该把人类的感知度作为文本攻击的首要成功标准。

May, 2023

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在ANLI和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023