文本分类中的抗解释攻击

Jun, 2022

Fooling Explanations in Text Classifiers

Adam Ivankay, Ivan Girardi, Chiara Marchiori, Pascal Frossard

TL;DR本论文研究表明，文本分类器中存在易受干扰的解释方法，因此需要在应用于实际场景时伴随着文本分类器进行忠实和稳健的解释方法，以防止解释被局部且不可察觉的扰动所改变，TEF 是一种新颖的解释攻击算法，可以通过改变文本输入样本来显著改变常用解释方法的结果，但保持分类器的预测不变。我们对 5 个序列分类数据集进行了评估，考虑了三种 DNN 架构和每个数据集的三种变换器架构，发现所有模型和解释方法都容易受到 TEF 扰动的影响，这表明文本分类器中的解释非常脆弱。

Abstract

State-of-the-art text classification models are becoming increasingly reliant on deep neural networks (DNNs). Due to their black-box nature, faithful and robust →

text classification deep neural networks explanation methods explanation attack algorithm fragility

发现论文，激发创造

使用 Transformer 评估文本归因的对抗鲁棒性

通过提出 attribution robustness（AR）的概念，使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性，并提出了 TransformerExplanationAttack（TEA）的概念，利用最先进的语言模型，提取单词替换，从而展示了对于几种文本分类架构的实验，证明了 TEA 在提高对上下文敏感性的同时，更加流畅，更不易被察觉。

Dec, 2022

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

深度神经网络的解释处理

本文发现了一个问题：通过微调输入图像，我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI，我们能够在不使用梯度或其他模型内部的情况下，成功地在黑盒设置下操作解释方法，从而实现了对图像做微小改变却使 XAI 方法输出特定解释的目标。

Nov, 2022

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

探索关系抽取中的自动扰动自然语言解释

本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性，并发现即使是完全被破坏的解释，也仍有助于提供额外的上下文空间，从而取得与标注解释相当的结果，但计算效率显著提高了 20-30 倍。

May, 2023

文本分类的任意生成对抗解释

在机器学习中，理解分类器推荐或预测背后的推理对用户非常重要。然而，学习的模型通常太复杂，以至于人类难以理解。本文提出了一个通用框架，用于在文本领域生成反事实解释，这个框架是不限于模型、表示和领域的，并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题，包括独立于领域的运算符，但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。

Nov, 2022

通过随机化潜在表示欺骗文本欺骗者

通过随机化输入的潜在表示，我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制，主要目标是困惑生成对抗样本的过程，从而达到误导对手的效果，并在两个基准数据集上证明近乎最先进的防御能力。

Oct, 2023

无监督模型解释技术检测对抗样本

本文提出一种使用模型解释方法检测异常样例的无监督方法，并在 MNIST 数据集上展现了该方法高效检测最先进算法所产生的对手样本。

Jul, 2021