走向非对抗性算法修复

Mar, 2024

Towards Non-Adversarial Algorithmic Recourse

Tobias Leemann, Martin Pawelczyk, Bardh Prenkaj, Gjergji Kasneci

TL;DR在高风险情况下，通过对敌对示例和反事实解释的形式定义，我们介绍了非敌对算法性回应，并阐明了为什么在获得不具备敌对特性的反事实解释方面是至关重要的。我们进一步研究了目标函数中不同组件（例如用于计量距离的机器学习模型或成本函数）如何决定结果是否可以被视为敌对示例。我们对常见数据集进行的实验证明，这些设计选择通常比使用回应或攻击算法更关键，以决定回应是否具有非敌对特性。此外，我们展示了选择强大和准确的机器学习模型会导致实践中所期望的更少敌对性回应。

Abstract

The streams of research on adversarial examples and counterfactual explanations have largely been growing independently. This has led to several recent works trying to elucidate their similarities and differences. Most prominently, it has been argued that →

adversarial examples counterfactual explanations algorithmic recourse high-stakes situations machine learning model

发现论文，激发创造

透过对抗样本镜头探索反事实解释：理论和实证分析

通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析，我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究，这引发了现有因果解释算法设计和开发的基本问题。

Jun, 2021

算法补救：从反事实解释到干预

本研究旨在基于因果推理，强调针对机器学习的偏见或错误决策，我们应该将注意力从解释数据的方式转向提供介绍、通过最小干预实现推荐的方式，以获得更好的结果。

Feb, 2020

局部引导的顺序算法补救的反事实解释

通过算法补偿实施的反事实推演已成为使人工智能系统具有可解释性的强大工具，本文提出了一种名为 LocalFACE 的模型不可知技术，通过局部获取的信息在每个算法补偿步骤中构建可行且可操作的反事实解释。

Sep, 2023

机器学习的反事实解释和算法补救措施综述

本文综述分类了反事实解释的研究，包括如何评估和设计反事实解释算法，探讨了反事实解释在机器学习领域中的研究方向和发现的不足之处。

Oct, 2020

因果算法对抗鲁棒性

该论文研究算法性救济，包括在自动化决策系统中提供可行的建议，如何在相关不利的情况下提供建议并保持鲁棒性，通过正则化决策分类器来促进鲁棒救济。

Dec, 2021

语义与解释：为什么反事实解释在深度神经网络中产生对抗样本

深度学习系统的可解释性要求研究人员找到解释深层神经网络表示语义的方法，尽管对于某些情况，对立解释似乎非常有效，但它们与对抗示例在形式上是等价的，这为可解释性研究人员提供了明显的悖论。

Dec, 2020

PermuteAttack: 机器学习信用评分卡的反事实说明

本文提出了一个基于对抗性生成的数据方法的模型评估和解释框架，该方法可用于信贷评分系统中的机器学习算法，该算法应用于表格形式的金融数据，包括离散和分类变量，并使用基于遗传算法的无梯度优化进行优化。

Aug, 2020

反事实解释可被操纵

本文介绍了反事实解释的脆弱性并表明其容易被操纵，进一步提出了一个新颖的目标来训练明显公平的模型，在轻微扰动下反事实解释可以找到更低成本的救济措施。然而，我们在贷款和暴力犯罪预测数据集上的实验表明，这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧，并希望能启发对健壮性反事实解释的探索。

Jun, 2021

使用多目标优化探索反事实解释中的可信度、变化强度和对抗能力之间的权衡

使用多目标优化模型，通过生成逆因模型生成可信的对抗实例，以提高深度学习模型的透明度，检测偏见和数据不当的形式。

May, 2022

隐私保护算法方案

基于实例化反事实解释的隐私回溯路径，提供了一种端到端的隐私保护管道，可生成逼真的回溯路径。

Nov, 2023