来自反事实解释的模型提取

Sep, 2020

Model extraction from counterfactual explanations

Ulrich Aïvodji, Alexandre Bolot, Sébastien Gambs

TL;DR本文介绍了后验方法中计数事实解释作为黑盒机器学习模型的后解释技术中越来越受欢迎的方法，但使用该方法泄露了与模型相关的信息，攻击者可以建立一个忠实副本。通过在真实世界数据集上进行评估，我们证明了该攻击可以在低查询预算下实现高保真度和高准确度的模型提取，进而引出了隐私问题。

Abstract

post-hoc explanation techniques refer to a posteriori methods that can be used to explain how black-box machine learning models produce their outcomes. Among →

post-hoc explanation techniques counterfactual explanations black-box machine learning models model extraction attacks privacy issues

发现论文，激发创造

后因解释的危险性：不合理的反事实解释

通过研究局部邻域，探究人工构建的反事实解释是否为实际数据知识，发现存在较高风险，多数最前沿方法不能区分有解释性的反事实实例和不合理实例。

Jul, 2019

事后反事实解释的问题：一次讨论

本文探讨了后设反事实解释方法对数据和分类器的基本假设导致其在很多情况下的不可靠性，并提出了近似性、连通性和稳定性三种量化方法和途径。另外，本文还证明了后设反事实方法不满足这些属性的风险。

Jun, 2019

计算反事实解释的方法 —— 一项调查研究

机器学习模型日益广泛应用，因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法，并提出了文献中尚未考虑的模型方法。

Nov, 2019

利用反事实解释进行模型重建：缓解决策边界变动

通过利用虚拟的解释接近决策边界的特点，我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略，该策略训练一个使用独特损失函数的代理模型，该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明，我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。

May, 2024

通过不同的反事实解释解释机器学习分类器

本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架，旨在优化反事实行为的可行性和多样性，并提供了可比较的度量标准来评估反事实方法。通过实验，验证了该框架能生成多样性的反事实，并且能有效地近似本地决策边界。

May, 2019

反事实解释可被操纵

本文介绍了反事实解释的脆弱性并表明其容易被操纵，进一步提出了一个新颖的目标来训练明显公平的模型，在轻微扰动下反事实解释可以找到更低成本的救济措施。然而，我们在贷款和暴力犯罪预测数据集上的实验表明，这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧，并希望能启发对健壮性反事实解释的探索。

Jun, 2021

多目标反事实解释

该研究提出了一种多目标反事实解释方法（MOC），将反事实搜索转化为多目标优化问题，通过对特征空间的多样性维护，返回一组不同权衡的反事实，并在实际案例中展示了 MOC 的有用性和与现有方法的对比。

Apr, 2020

透过对抗样本镜头探索反事实解释：理论和实证分析

通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析，我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究，这引发了现有因果解释算法设计和开发的基本问题。

Jun, 2021

半监督反事实解释

通过引入自编码器重建损失，将分类器输出结果与自编码器的潜空间相连接，从而提高干预解释搜索过程的速度和解释干预结果的可解释性，尤其在自编码器以半监督方式训练的情况下进一步提高了其解释性。在多个数据集上的实验验证了该方法的有效性。

Mar, 2023

对策说明的随机优化

通过提出一种基于随机学习的框架和特征选择模块来平衡反事实解释的权衡，本研究在生成可行的反事实解释方面展现了其有效性，并表明其比基线更加多样化和高效。

Sep, 2022