反事实解释可被操纵

Jun, 2021

Counterfactual Explanations Can Be Manipulated

Dylan Slack, Sophie Hilgard, Himabindu Lakkaraju, Sameer Singh

TL;DR本文介绍了反事实解释的脆弱性并表明其容易被操纵，进一步提出了一个新颖的目标来训练明显公平的模型，在轻微扰动下反事实解释可以找到更低成本的救济措施。然而，我们在贷款和暴力犯罪预测数据集上的实验表明，这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧，并希望能启发对健壮性反事实解释的探索。

Abstract

counterfactual explanations are emerging as an attractive option for providing recourse to individuals adversely impacted by algorithmic decisions. As they are deployed in critical applications (e.g. law enforcem

counterfactual explanations algorithmic decisions vulnerabilities fairness data sets

发现论文，激发创造

评价反事实解释的鲁棒性

本研究旨在正式和实证研究了解反事实解释的鲁棒性，以及在不同模型和不同类型扰动下的鲁棒性，并提出合理的反事实解释来改进鲁棒性和个体平等。

Mar, 2021

算法补救：从反事实解释到干预

本研究旨在基于因果推理，强调针对机器学习的偏见或错误决策，我们应该将注意力从解释数据的方式转向提供介绍、通过最小干预实现推荐的方式，以获得更好的结果。

Feb, 2020

通过多样性促进反事实鲁棒性

通过报告多个反事实，可以提供一些有意义的鲁棒性保证，这篇论文提出了一种近似算法来选择最相关的解释，并在实验中证明了其在生成鲁棒性解释方面的改进。

Dec, 2023

数据中毒对反事实解释的影响