关于对抗鲁棒性和可操作解释之间的权衡

Sep, 2023

关于对抗鲁棒性和可操作解释之间的权衡

On the Trade-offs between Adversarial Robustness and Actionable Explanations

Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju

TL;DR机器学习模型在高风险环境中的应用越来越多，确保这些模型的预测不仅具有对抗性鲁棒性，而且能够向相关利益相关方进行解释变得重要。然而，这两个概念是否可以同时实现以及是否存在着它们之间的权衡是不清楚的。在本研究中，我们首次尝试研究对抗性鲁棒模型对行动性解释的影响，这些解释为最终用户提供了救济手段。我们在理论上和实证上分析了当基础模型具有对抗性鲁棒性和非鲁棒性时，最先进算法所生成的救济方案的成本（实施的便利性）和有效性（获得积极模型预测的概率）之间的差异，并针对对抗性鲁棒和非鲁棒的线性和非线性模型推导了理论界限。我们通过多个真实数据集的实证结果验证了我们的理论结果，并展示了模型鲁棒性不同程度对救济方案的成本和有效性的影响。我们的分析表明，对抗性鲁棒模型显著增加了救济方案的成本并降低了有效性，从而揭示了对抗性鲁棒性和行动性解释之间的固有权衡。

Abstract

As machine learning models are increasingly being employed in various high-stakes settings, it becomes important to ensure that predictions of these models are not only adversarially robust, but also readily expl

machine learning models adversarially robust actionable explanations trade-offs model robustness

发现论文，激发创造

对抗性鲁棒性的利弊

该论文揭示了现有鲁棒性定义以及鲁棒性认证方法的一些局限性，并调查了除了与鲁棒性相关的对抗性例子之外的其他用途。

Dec, 2023

因果算法对抗鲁棒性

该论文研究算法性救济，包括在自动化决策系统中提供可行的建议，如何在相关不利的情况下提供建议并保持鲁棒性，通过正则化决策分类器来促进鲁棒救济。

Dec, 2021

有意义且健壮的算法补救措施的因果视角

本研究提出了有意义的算法追溯 (MAR) 方法，该方法仅推荐同时改善预测和目标的操作，从而解决了原有算法追溯方法的问题，并介绍了一种称为有效算法追溯（EAR）的方法，它可以假定采取操作可以影响模型目标的所有原因，从而生成有意义的算法追溯解释。

Jul, 2021

鲁棒性可能与准确性相矛盾

我们证明了，追求对抗鲁棒性和标准泛化之间存在固有的紧张关系，训练鲁棒性模型不仅可能更加费时，也会导致标准准确性的降低，并且这种现象是由于鲁棒分类器学习了根本不同的特征表示方法。

May, 2018

走向非对抗性算法修复

在高风险情况下，通过对敌对示例和反事实解释的形式定义，我们介绍了非敌对算法性回应，并阐明了为什么在获得不具备敌对特性的反事实解释方面是至关重要的。我们进一步研究了目标函数中不同组件（例如用于计量距离的机器学习模型或成本函数）如何决定结果是否可以被视为敌对示例。我们对常见数据集进行的实验证明，这些设计选择通常比使用回应或攻击算法更关键，以决定回应是否具有非敌对特性。此外，我们展示了选择强大和准确的机器学习模型会导致实践中所期望的更少敌对性回应。

Mar, 2024

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

准确性和鲁棒性是否相关？

通过利用深度卷积神经网络生成对抗性样本，然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异，最后在跨模型对抗迁移上进行了大规模实验，研究结果表明对抗性样本在相似的网络拓扑间是可传递的，并且更好的机器学习模型更不容易受到对抗性样本的攻击。

Oct, 2016

公平性增加对抗性漏洞性

本篇论文研究了深度学习模型在公平性和鲁棒性交叉应用中面临的挑战，并探讨了取得公平性如何降低模型对抗采样的鲁棒性的现象。作者提出了一种简单而有效的解决方案来平衡公平性和鲁棒性之间的权衡关系。

Nov, 2022