一种基于几何形态的攻击方法，用于生成自然语言对抗样本

COLINGOct, 2020

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

A Geometry-Inspired Attack for Generating Natural Language Adversarial Examples

Zhao Meng, Roger Wattenhofer

TL;DR本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Abstract

Generating adversarial examples for natural language is hard, as natural language consists of discrete symbols, and examples are often of variable lengths. In this paper, we propose a geometry-inspired attack for

adversarial examples natural language processing deep neural networks geometry-inspired attack adversarial training

发现论文，激发创造

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

对抗样本的几何性质

该研究提出了一种基于几何框架和流形重建方法的方法，以分析对抗样本的高维几何形状，并证明了不同规范的鲁棒性、球形对抗性训练的样本编号和最近邻分类器与基于球面的对抗训练的充分采样条件。

Nov, 2018

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

AI-GAN：攻击启发的对抗样本生成

本文提出了一种新的框架 Attack-Inspired GAN，它可以通过联合训练的生成器、鉴别器和攻击器，以更有效的方式生成攻击性畸变，从而实现对图像分类任务的攻击成功率提高和生成时间的减少。

Feb, 2020

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

使用对抗网络生成对抗性样本

本文提出了 AdvGAN，一种使用生成对抗网络产生高感知质量的对抗样本的方法，可以更高效地生成对抗性的扰动用于敌对训练，同时在半白盒和黑盒攻击设置下，AdvGAN 都能在 MNIST 黑盒攻击竞赛中取得 92.76％的攻击成功率。

Jan, 2018

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

GeoDA: 一个基于几何的黑盒对抗攻击框架

本文提出一种有效的黑盒攻击算法，用于生成三维深度神经网络的对抗样例，该算法利用网络决策边界以及小曲率特性来生成具有小 l_p 范数的有效迭代算法，该算法获得了比现有算法更好的结果。

Mar, 2020

识别生成单词级对抗样本的人类策略

本研究分析了人类如何生成针对细调 Transformer 模型的自然性和语法正确性保持的词级对抗性示例，通过探索人类工作者在生成过程中的行为模式，我们识别出人类更喜欢选择哪些单词进行对抗替换以及何时何地进行替换。研究结果可用于启发利用人类策略制定更强大的自然语言处理模型。

Oct, 2022