生成维护公正的解释需要什么？

ICMLJun, 2021

What will it take to generate fairness-preserving explanations?

Jessica Dai, Sohini Upadhyay, Stephen H. Bach, Himabindu Lakkaraju

TL;DR介绍了黑盒模型的公平性与解释的相关性，强调解释并不一定能够保持算法的公平性，并提出评估和生成公平解释的未来研究方向。

Abstract

In situations where explanations of black-box models may be useful, the fairness of the black-box is also often a relevant concern. Howeve

black-box models fairness explanations tabular datasets algorithm

发现论文，激发创造

解释性之路的通行需面对偏见：衡量解释的公平性

本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量，发现不同子组的近似质量显着不同，而解释深度学习模型的近似质量差异存在着公平性挑战，需要进一步解决。

May, 2022

解释模型：解释对公正评判的影响的经验研究

通过一项关于程序生成解释的实证研究，我们发现不同类型的解释如何影响人们对机器学习系统的公平判断，其中某些解释可增强人们对算法公正性的信心，但也有部分解释会被认为是不公平的，此外，不同类型的解释也能更有效地揭示不同的公平问题，因此我们讨论了提供个性化和自适应的解释来支持机器学习系统的公平判断。

Jan, 2019

公正掩蔽：理性化的风险

研究了黑匣子解释问题，利用 LaundryML 算法演示如何以一定的公平指标系统地合理化黑匣子机器学习模型的不公平决策，可提供高效的规则列表，同时满足高度匹配和更少的不公平性。

Jan, 2019

公平机器学习的可解释性

本文提出了一种新的基于 Shapley 值范例的机器学习公平解释方法，并提出了一种元算法来应用现有的训练时公平干预。

Oct, 2020

公平性和可解释性：缩小公平模型解释的差距

通过解释的方式，我们提出了基于过程的公正度并识别了过程相关偏见，并通过优化目标设计了一种综合公正度算法，以在提高传统公正度、满足解释公正度和维护实用性能之间达到多重目标的平衡。

Dec, 2022

关于解释不公正现象的概述

算法公平性和可解释性是实现负责任人工智能的基本要素。本文关注它们之间的相互关系，即最近受到越来越多关注的研究领域。我们首先提出了两种综合分类法，分别代表了公平性和解释两个互补的研究领域。然后，我们将用于公平性的解释分为三种类型：（a）用于增强公平指标的解释，（b）用于帮助我们理解（不公平）原因的解释，以及（c）用于辅助我们设计缓解不公平性方法的解释。最后，基于我们的公平性和解释分类法，我们提供了未曾涉足的文献路径，揭示了可以作为未来研究宝贵见解的空白领域。

Feb, 2024

人工智能决策中解释对公平性的影响：受保护特征与代理特征

AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见，提高决策公正性，但解释可能无法揭示间接偏见，需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。

Oct, 2023

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

人工智能决策中的解释、公平性和适当依赖

研究了基于 AI 解释和分布式公平性之间的关系，发现解释会影响公平感知，从而与人类对 AI 建议的依赖关系发生关联。该研究表明，基于特征的解释并不是改善分布式公正性的可靠机制。

Sep, 2022

关于解释、公平感知和决策之间的关系

研究人员探讨了 AI 系统推荐错误或不公平的情况下，人工干预的必要性，并提供了关于解释、公平感知、依赖和分布公平性之间关系的理论框架，但文献并没有提供确凿证据证明解释在实践中实现了这种补充关系。

Apr, 2022