表征的二重奏及解释的恶化

Feb, 2024

The Duet of Representations and How Explanations Exacerbate It

Charles Wan, Rodrigo Belo, Leid Zejnilović, Susana Lavado

TL;DR算法效果对人类感知中特征和标签之间的因果关系进行了表示，这种表示可能与人类先验信念相冲突。解释可以引导人类注意冲突的特征，从而避免注意其他相关特征，从而导致因果过度归因，并且可能对人类的信息处理产生不利影响。

Abstract

An algorithm effects a causal representation of relations between features and labels in the human's perception. Such a representation might conflict with the human's prior belief. →

algorithm effects causal representation explanations information processing decision-making

发现论文，激发创造

解释性的提高是否等同于最优性的减损？—— 解释对决策的偏见

机器学习算法越来越被用于组织的决策中，特征解释引入因果模型的语义，导致决策者的先验偏见泄漏，并产生确认偏见和决策结果的差异，从而导致次优和有偏的决策结果。

Jun, 2022

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

人工智能决策中解释对公平性的影响：受保护特征与代理特征

AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见，提高决策公正性，但解释可能无法揭示间接偏见，需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。

Oct, 2023

信念偏误和解释的交互作用

该研究介绍了解释性方法的评估问题，说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题，同时通过基于梯度的解释性案例研究得到，在评估中考虑个体先验信仰的重要性。

Jun, 2021

人工智能决策中的解释、公平性和适当依赖

研究了基于 AI 解释和分布式公平性之间的关系，发现解释会影响公平感知，从而与人类对 AI 建议的依赖关系发生关联。该研究表明，基于特征的解释并不是改善分布式公正性的可靠机制。

Sep, 2022

关于解释、公平感知和决策之间的关系

研究人员探讨了 AI 系统推荐错误或不公平的情况下，人工干预的必要性，并提供了关于解释、公平感知、依赖和分布公平性之间关系的理论框架，但文献并没有提供确凿证据证明解释在实践中实现了这种补充关系。

Apr, 2022

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

AI 系统的反事实解释是否会扭曲普通用户对世界因果直觉的理解？如果是，我们能纠正吗？

本文探讨了 AI 系统中基于反事实进行的解释在实际应用中所带来的影响以及其引发的因果信念变化，通过实验证明了提供 AI 系统预测的反事实解释会影响人们对于该预测所关联的特征是否具有因果性的判断，其结果表明指出 AI 系统只能捕捉到相关关系而非因果关系可以减轻其影响。

May, 2022

因果解释的分歧：透明度如何具有欺骗性

本文针对可解释人工智能中的对策解释方法（Counterfactual explanations）中存在的异议问题（the disagreement problem）进行了大规模实证研究，发现不同算法生成的解释之间存在高度异议，从而呼吁更多关于算法决策透明度的讨论和实验研究。

Apr, 2023