利用反事实解释进行模型重建：缓解决策边界变动

May, 2024

利用反事实解释进行模型重建：缓解决策边界变动

Model Reconstruction Using Counterfactual Explanations: Mitigating the Decision Boundary Shift

Pasan Dissanayake, Sanghamitra Dutta

TL;DR通过利用虚拟的解释接近决策边界的特点，我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略，该策略训练一个使用独特损失函数的代理模型，该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明，我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。

Abstract

counterfactual explanations find ways of achieving a favorable model outcome with minimum input perturbation. However, counterfactual explanations can also be exploited to steal the model by strategically trainin

counterfactual explanations model extraction surrogate model decision boundary polytope theory

发现论文，激发创造

反事实解释可被操纵

本文介绍了反事实解释的脆弱性并表明其容易被操纵，进一步提出了一个新颖的目标来训练明显公平的模型，在轻微扰动下反事实解释可以找到更低成本的救济措施。然而，我们在贷款和暴力犯罪预测数据集上的实验表明，这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧，并希望能启发对健壮性反事实解释的探索。

Jun, 2021

半监督反事实解释

通过引入自编码器重建损失，将分类器输出结果与自编码器的潜空间相连接，从而提高干预解释搜索过程的速度和解释干预结果的可解释性，尤其在自编码器以半监督方式训练的情况下进一步提高了其解释性。在多个数据集上的实验验证了该方法的有效性。

Mar, 2023

机器学习分类器反事实解释中的因果约束保持

通过使用结构性因果模型，生成可行的对抗样本对于解释人工智能模型在医疗和金融等关键领域的决策是至关重要的。本论文提出了一种生成适用于实际应用中的可行对抗样本的方法，并且通过实验证明了其效果。

Dec, 2019

来自反事实解释的模型提取

本文介绍了后验方法中计数事实解释作为黑盒机器学习模型的后解释技术中越来越受欢迎的方法，但使用该方法泄露了与模型相关的信息，攻击者可以建立一个忠实副本。通过在真实世界数据集上进行评估，我们证明了该攻击可以在低查询预算下实现高保真度和高准确度的模型提取，进而引出了隐私问题。

Sep, 2020

DualCF: 从反事实解释中进行高效模型提取攻击

本文提出了一种名为 DualCF 的策略，用于云模型抽取攻击中的高效查询，在使用对抗性 CF 训练代替模型时，可以通过将 CF 与对抗性 CF 的解释匹配使代替模型的准确度更高。

May, 2022

针对表格数据的学习模型无关反事实解释

本文提出了一种新的方法 ——C-CHVAE，该方法可以生成可实现的反事实解释，以更好地满足反事实解释的质量要求。

Oct, 2019

通过数学优化在基于得分的分类中生成集体反事实解释

利用数学优化模型，通过集体反事实解释为给定组内各实例提供一个反事实解释，以使扰动实例的总成本在一定约束下最小化，从而检测对整个数据集都至关重要的特征，验证了该方法的实用性。

Oct, 2023

透过对抗样本镜头探索反事实解释：理论和实证分析

通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析，我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究，这引发了现有因果解释算法设计和开发的基本问题。

Jun, 2021

对策说明的随机优化

通过提出一种基于随机学习的框架和特征选择模块来平衡反事实解释的权衡，本研究在生成可行的反事实解释方面展现了其有效性，并表明其比基线更加多样化和高效。

Sep, 2022

使用概念性反事实解释有意义地调试模型错误

本研究提出了一种系统化方法 —— 概念反事实解释（CCE），旨在利用人类理解的概念（例如，由于条纹不清晰，这只斑马被错误地分类为狗）解释分类器在特定测试样本上出错的原因，并在多个已知的预置模型上验证了 CCE 的有效性及其对于缓解偏差的作用，同时也确认了 CCE 可以对带有噪声偏旁相同的数据进行准确分析。

Jun, 2021