具有模型变化鲁棒性概率保证的反事实解释

Aug, 2024

具有模型变化鲁棒性概率保证的反事实解释

Counterfactual Explanations with Probabilistic Guarantees on their Robustness to Model Change

Ignacy Stępka, Mateusz Lango, Jerzy Stefanowski

TL;DR本研究解决了现有反事实解释（CFE）在面对模型变化时失效的问题。提出了一种新颖的方法，通过理论框架定义鲁棒性，确保CFE在任何模型和变化类型上的概率保证，并通过BetaRCE方法增强了解释质量。实验表明，BetaRCE生成的反事实解释在鲁棒性和 plausibility 上均优于基线方法。

Abstract

Counterfactual Explanations (CFEs) guide users on how to adjust inputs to Machine Learning models to achieve desired outputs. While existing research primarily addresses static scenarios, real-world applications

发现论文，激发创造

神经网络对抗解释的稳健性形式化

该研究提出了Delta-robustness概念，基于区间神经网络的抽象框架，确定性地评估了神经网络中CFX的健壮性，并表明了它在提高可靠性方面的应用。

Aug, 2022

生成强健的反事实解释

本文提出了一种名为CROCO的新框架，用于生成具有鲁棒性的反事实解释，并有效地管理反事实输入更改带来的挑战，针对表格数据进行评估，证明了该方法的有效性。

Apr, 2023

带有概率保证的神经网络的鲁棒的反事实解释

通过引入“自然发生的模型变化”这种数学抽象概念，提出了一种能度量不同模型下反事实解释的鲁棒性的度量标准，该标准称为“稳定性”，并证明了当该度量标准足够高时，针对高斯函数的稳定性也足够高，能够有效解决不同模型之间的反事实解释一致性问题。

May, 2023

灵活稳健的反事实解释与最小满足扰动

通过Counterfactual Explanations with Minimal Satisfiable Perturbations (CEMSP)提供更健壮的解释，同时保留灵活性，以应对多个Counterfactual explanations可能导致的不稳定性问题。

Sep, 2023

通过多样性促进反事实鲁棒性

通过报告多个反事实，可以提供一些有意义的鲁棒性保证，这篇论文提出了一种近似算法来选择最相关的解释，并在实验中证明了其在生成鲁棒性解释方面的改进。

Dec, 2023

机器学习中的鲁棒反事实解释：一项调查

对于机器学习模型的预测结果影响的人来说，反事实解释（CEs）被认为是提供理想算法解决方案的。然而，最近的工作揭示了与获取CEs的最新方法相关的严重问题的存在，因此需要采取技术来减轻风险。在这项调查中，我们回顾了快速发展的稳健CEs领域的研究，并对其所考虑的稳健性形式进行了深入分析。我们还讨论了现有解决方案及其限制，为未来的发展提供了坚实的基础。

Feb, 2024

针对数据转换下的反事实解释鲁棒性的验证训练

这篇论文介绍了VeriTraCER，一种联合训练分类器和解释器的方法，明确考虑生成的反事实解释对小型模型偏移的稳健性，从而提供对反事实解释有效性的确定性保证。我们的实证评估表明，VeriTraCER生成的反事实解释(1)对小型模型更新具有可验证的稳健性，(2)在处理包括随机初始化、leave-one-out和分布偏移等经验模型更新方面显示出与最先进方法竞争力的稳健性。

Mar, 2024

具有归一化流的概率可信因果解释

我们提出了PPCEF，一种用于生成概率上可信的反事实解释（CFs）的新方法。PPCEF通过将概率形式与在一个统一框架内优化可信度相结合，超越了现有方法。与参考方法相比，我们的方法通过直接优化显式密度函数而不假定特定的参数化分布家族来强制执行可信度。这确保了CFs不仅是有效的（即实现了类别变化），而且与底层数据的概率密度相一致。为此，我们的方法利用规范化流作为强大的密度估计器来捕捉复杂的高维数据分布。此外，我们引入了一种新颖的损失函数，平衡了实现类别变化和保持与原始实例的相似性之间的权衡，并结合了概率可信度项。PPCEF的无约束形式允许有效的基于梯度的批处理优化，与之前的方法相比，计算速度提高了几个数量级。此外，PPCEF的无约束形式允许将来的约束无缝集成，以符合特定的反事实属性。最后，广泛的评估证明了PPCEF在生成高质量、概率上可信的高维表格设置中的反事实解释方面的优势。这使得PPCEF不仅成为解释复杂机器学习模型的强大工具，而且提高了AI系统的公平性、问责制和信任度。

May, 2024

严格的概率保证对于鲁棒的反事实解释

我们研究了深度学习模型反事实解释的鲁棒性评估问题，并提出了一种关于此设置中鲁棒性属性的新框架，其中重点考虑了可能的模型变化。通过首次展示反事实对于可能的模型变化的鲁棒性计算是NP完全的，以此来激发我们解决方案的动机。本文提出了一种新的概率方法，能够在保持可伸缩性的同时提供鲁棒性的紧密估计和强有力的保证，与现有解决方案不同的是，我们的方法不对待分析的网络提出要求，从而使得鲁棒性分析适用于更广泛的架构。在四个二分类数据集上的实验证明，我们的方法在生成鲁棒解释方面改进了现有技术，并在各种度量指标上优于现有方法。

Jul, 2024

鲁棒反事实解释中的一般模型变化

随着算法决策对人类生活的影响越来越大，模型的可解释性已成为机器学习中的关键问题。对抗解释是可解释机器学习领域的重要方法，它不仅有助于用户理解机器学习模型为何做出特定决策，还可以帮助用户理解如何改变这些决策。本文提出了自然发生的模型改变的更一般概念——模型参数改变，并证明了相应的概率保证。此外，我们还考虑了一种更具体的问题——数据集扰动，并通过优化理论给出了相关的理论结果。

Jul, 2024