来自反事实解释的模型提取
本文探讨了后设反事实解释方法对数据和分类器的基本假设导致其在很多情况下的不可靠性,并提出了近似性、连通性和稳定性三种量化方法和途径。另外,本文还证明了后设反事实方法不满足这些属性的风险。
Jun, 2019
机器学习模型日益广泛应用,因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法,并提出了文献中尚未考虑的模型方法。
Nov, 2019
通过利用虚拟的解释接近决策边界的特点,我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略,该策略训练一个使用独特损失函数的代理模型,该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明,我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。
May, 2024
本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架,旨在优化反事实行为的可行性和多样性,并提供了可比较的度量标准来评估反事实方法。通过实验,验证了该框架能生成多样性的反事实,并且能有效地近似本地决策边界。
May, 2019
本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。
Jun, 2021
该研究提出了一种多目标反事实解释方法(MOC),将反事实搜索转化为多目标优化问题,通过对特征空间的多样性维护,返回一组不同权衡的反事实,并在实际案例中展示了 MOC 的有用性和与现有方法的对比。
Apr, 2020
通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析,我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究,这引发了现有因果解释算法设计和开发的基本问题。
Jun, 2021
通过引入自编码器重建损失,将分类器输出结果与自编码器的潜空间相连接,从而提高干预解释搜索过程的速度和解释干预结果的可解释性,尤其在自编码器以半监督方式训练的情况下进一步提高了其解释性。在多个数据集上的实验验证了该方法的有效性。
Mar, 2023