使用 Transformer 评估文本归因的对抗鲁棒性

Dec, 2022

使用 Transformer 评估文本归因的对抗鲁棒性

Estimating the Adversarial Robustness of Attributions in Text with Transformers

Adam Ivankay, Mattia Rigotti, Ivan Girardi, Chiara Marchiori, Pascal Frossard

TL;DR通过提出 attribution robustness（AR）的概念，使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性，并提出了 TransformerExplanationAttack（TEA）的概念，利用最先进的语言模型，提取单词替换，从而展示了对于几种文本分类架构的实验，证明了 TEA 在提高对上下文敏感性的同时，更加流畅，更不易被察觉。

Abstract

explanations are crucial parts of deep neural network (DNN) classifiers. In high stakes applications, faithful and robust explanations are

deep neural network explanations attribution robustness adversarial perturbations text classification

发现论文，激发创造

文本分类中的抗解释攻击

本论文研究表明，文本分类器中存在易受干扰的解释方法，因此需要在应用于实际场景时伴随着文本分类器进行忠实和稳健的解释方法，以防止解释被局部且不可察觉的扰动所改变，TEF 是一种新颖的解释攻击算法，可以通过改变文本输入样本来显著改变常用解释方法的结果，但保持分类器的预测不变。我们对 5 个序列分类数据集进行了评估，考虑了三种 DNN 架构和每个数据集的三种变换器架构，发现所有模型和解释方法都容易受到 TEF 扰动的影响，这表明文本分类器中的解释非常脆弱。

Jun, 2022

DARE：针对生物医学和医疗保健应用的强韧文本解释

本文旨在解决当前越来越普遍的深度神经网络 “黑匣子” 问题，介绍了如何适应不同领域的需求来提高解释方法的鲁棒性，并提供两种训练方法来缓解其脆弱性，最终通过实验证明了方法的有效性。

Jul, 2023

模型归因的鲁棒性再思考

机器学习模型的可靠性和可信度要求其决策具有可解释性，尤其在安全关键应用中，模型预测和解释（作为特征归因）对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的，并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因：首先，现有的鲁棒性度量指标（例如，top-k 交集）对于合理的本地归因偏移进行了过度惩罚，因此使得随机扰动呈现出强攻击的效果；其次，即使图像中存在多个重要部分，归因可以集中在一个小区域中。为了纠正这一点，我们提出了一些简单的方法来加强现有的度量指标和归因方法，这些方法将像素的局部性纳入鲁棒性度量指标中，并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用，我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因，然而，在较大的数据集中，这种优势消失了。代码可在此 https URL 获得。

Dec, 2023

使用输入 - 梯度空间对齐进行属性鲁棒性训练

本研究提出了一种训练方法（ART），能够减小图像空间相关性对模型解释鲁棒性的影响，并在多个标准数据集上显著提高了解释鲁棒性，并且在弱监督目标定位任务上实现了新的最佳性能。

Nov, 2019

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

防御对解释的篡改

本文提出了一种新的训练方案 —— 用对抗训练解释，以提高模型对不同解释方法的内部解释稳定性，并在实验中展示了它的有效性，包括提高对抗训练的效果和平滑解释，此外还发现解释稳定性与对抗攻击风险息息相关。

Nov, 2021

理解图像分类决策的对抗解释及改进神经网络的鲁棒性

本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击，并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中，本文设计的神经网络的准确性和鲁棒性面积（ARA）为 0.0053，是之前最先进技术的 2.4 倍，拓展了理解神经网络决策的重要方向。

Jun, 2019

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

增强型正则化方法用于权责稳健性

该研究论文旨在提出一种强健的归因训练策略来提高深度神经网络的归因鲁棒性，针对近年来的研究表明，尽管这些模型被给予两张非常相似的图像，但其产生的归因图可能会有很大的不同，从而引发了对其可信度的质疑。这个方法通过引入保护模型归因图免受攻击的两个新的正则器来提高归因鲁棒性，并在多个数据集上超越了最先进的归因鲁棒性方法。

Dec, 2020