离散敌对攻击与子模优化及其在文本分类中的应用

Dec, 2018

离散敌对攻击与子模优化及其在文本分类中的应用

Discrete Adversarial Attacks and Submodular Optimization with Applications to Text Classification

Qi Lei, Lingfei Wu, Pin-Yu Chen, Alexandros G. Dimakis, Inderjit S. Dhillon...

TL;DR本文提出对于离散输入的攻击作为优化任务的形式化表达，并证明了针对一些流行的神经网络文本分类器，该函数在简化假设下是次模的。同时，本文提出了使用攻击分类器的梯度来引导贪心搜索的方法。在三种不同的文本分类任务和多个基线上进行的实证研究表明，我们提出的优化方案在攻击能力和效率方面均显著提高。我们还使用联合句子和词汇改写技术来维护文本的原始语义和语法。在主观度量中，我们还使用人类主体评估来验证了生成的对抗文本的质量和语义连贯性。

Abstract

adversarial examples are carefully constructed modifications to an input that completely change the output of a classifier but are imperceptible to humans. Despite these successful attacks for continuous data (such as image and audio samples), generating →

adversarial examples discrete input neural network text classifiers optimization text classification

发现论文，激发创造

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

离散对抗训练实现模型的鲁棒性

本文提出离散对抗攻击的在线增强方法，使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本，结果表明使用随机抽样方法能够显著提高鲁棒性，而且比之前使用的离线增强方法速度提高了约 10 倍。

Apr, 2021

高效组合优化的简约黑盒对抗攻击

本文提出了一种离散替代方法来解决黑匣子攻击的问题，该方法可以在不需要估计导数的情况下有效地攻击神经网络，降低了之前所提出方法所需的查询次数。

May, 2019

基于贝叶斯优化的离散序列数据黑盒对抗攻击的高效查询和可扩展性

本文提出了一种使用贝叶斯优化方法对黑盒序列数据模型进行查询有效的对抗样本攻击，有效地提高了攻击成功率并且减小了查询次数和修改率。

Jun, 2022

文本分类器的对抗攻击的约束执行奖励

通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

May, 2024

基于组合优化的词级文本对抗攻击

本文提出了一种新颖的攻击模型，采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法，实验结果表明该模型相对于基线方法在攻击成功率方面显著提高，可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。

Oct, 2019

贪婪攻击和 Gumbel 攻击：生成针对离散数据的对抗样本

本研究提出了一种概率框架，用于研究针对离散数据的对抗攻击，并基于此框架导出了基于扰动的 Greedy Attack 和可扩展的基于学习的 Gumbel Attack 方法，探讨了对抗攻击设计中的各种权衡，最终通过对文本分类模型进行实验验证这些方法的有效性，如使用 Greedy Attack 在仅修改五个字符的情况下，字符卷积神经网络的准确性降至与随机选择相同的水平。

May, 2018

场景文本识别的自适应对抗攻击

本文提出了一种自适应攻击（Adaptive Attack）的方法，利用每个任务的不确定性，直接学习自适应多任务的加权方法，以加速来自序列学习任务的对抗攻击方法，并获得了很好的成功率和速度提升，实现了针对场景文本识别的对抗攻击。

Jul, 2018

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Mar, 2022