鲁棒反事实解释中的一般模型变化

Jul, 2024

鲁棒反事实解释中的一般模型变化

Generally-Occurring Model Change for Robust Counterfactual Explanations

Ao Xu, Tieru Wu

TL;DR随着算法决策对人类生活的影响越来越大，模型的可解释性已成为机器学习中的关键问题。对抗解释是可解释机器学习领域的重要方法，它不仅有助于用户理解机器学习模型为何做出特定决策，还可以帮助用户理解如何改变这些决策。本文提出了自然发生的模型改变的更一般概念——模型参数改变，并证明了相应的概率保证。此外，我们还考虑了一种更具体的问题——数据集扰动，并通过优化理论给出了相关的理论结果。

Abstract

With the increasing impact of algorithmic decision-making on human lives, the interpretability of models has become a critical issue in machine learning. →

发现论文，激发创造

通过不同的反事实解释解释机器学习分类器

本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架，旨在优化反事实行为的可行性和多样性，并提供了可比较的度量标准来评估反事实方法。通过实验，验证了该框架能生成多样性的反事实，并且能有效地近似本地决策边界。

May, 2019

计算反事实解释的方法——一项调查研究

机器学习模型日益广泛应用，因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法，并提出了文献中尚未考虑的模型方法。

Nov, 2019

基于 Tree 集成的灵活可优化反事实解释解释（FOCUS）

为了解决机器学习模型的可解释性问题，本研究提出了一种基于梯度优化和概率模型逼近的反事实解释方法，可以适用于不可微模型如树模型，并且该方法得出的反事实案例要优于其他针对树模型的反事实方法。

Nov, 2019

机器学习分类器反事实解释中的因果约束保持

通过使用结构性因果模型，生成可行的对抗样本对于解释人工智能模型在医疗和金融等关键领域的决策是至关重要的。本论文提出了一种生成适用于实际应用中的可行对抗样本的方法，并且通过实验证明了其效果。

Dec, 2019

机器学习的反事实解释和算法补救措施综述

本文综述分类了反事实解释的研究，包括如何评估和设计反事实解释算法，探讨了反事实解释在机器学习领域中的研究方向和发现的不足之处。

Oct, 2020

生成强健的反事实解释

本文提出了一种名为CROCO的新框架，用于生成具有鲁棒性的反事实解释，并有效地管理反事实输入更改带来的挑战，针对表格数据进行评估，证明了该方法的有效性。

Apr, 2023

带有概率保证的神经网络的鲁棒的反事实解释

通过引入“自然发生的模型变化”这种数学抽象概念，提出了一种能度量不同模型下反事实解释的鲁棒性的度量标准，该标准称为“稳定性”，并证明了当该度量标准足够高时，针对高斯函数的稳定性也足够高，能够有效解决不同模型之间的反事实解释一致性问题。

May, 2023

机器学习中的鲁棒反事实解释：一项调查

对于机器学习模型的预测结果影响的人来说，反事实解释（CEs）被认为是提供理想算法解决方案的。然而，最近的工作揭示了与获取CEs的最新方法相关的严重问题的存在，因此需要采取技术来减轻风险。在这项调查中，我们回顾了快速发展的稳健CEs领域的研究，并对其所考虑的稳健性形式进行了深入分析。我们还讨论了现有解决方案及其限制，为未来的发展提供了坚实的基础。

Feb, 2024

严格的概率保证对于鲁棒的反事实解释

我们研究了深度学习模型反事实解释的鲁棒性评估问题，并提出了一种关于此设置中鲁棒性属性的新框架，其中重点考虑了可能的模型变化。通过首次展示反事实对于可能的模型变化的鲁棒性计算是NP完全的，以此来激发我们解决方案的动机。本文提出了一种新的概率方法，能够在保持可伸缩性的同时提供鲁棒性的紧密估计和强有力的保证，与现有解决方案不同的是，我们的方法不对待分析的网络提出要求，从而使得鲁棒性分析适用于更广泛的架构。在四个二分类数据集上的实验证明，我们的方法在生成鲁棒解释方面改进了现有技术，并在各种度量指标上优于现有方法。

Jul, 2024

具有模型变化鲁棒性概率保证的反事实解释

本研究解决了现有反事实解释（CFE）在面对模型变化时失效的问题。提出了一种新颖的方法，通过理论框架定义鲁棒性，确保CFE在任何模型和变化类型上的概率保证，并通过BetaRCE方法增强了解释质量。实验表明，BetaRCE生成的反事实解释在鲁棒性和 plausibility 上均优于基线方法。

Aug, 2024