表征的二重奏及解释的恶化
机器学习算法越来越被用于组织的决策中,特征解释引入因果模型的语义,导致决策者的先验偏见泄漏,并产生确认偏见和决策结果的差异,从而导致次优和有偏的决策结果。
Jun, 2022
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
通过人类实验,我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策,这一结果挑战了应用这些方法的普遍好处的假定,在可解释的 AI 研究中人类评价的重要性下应该得到重视。
Dec, 2020
AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见,提高决策公正性,但解释可能无法揭示间接偏见,需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。
Oct, 2023
该研究介绍了解释性方法的评估问题,说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题,同时通过基于梯度的解释性案例研究得到,在评估中考虑个体先验信仰的重要性。
Jun, 2021
研究了基于 AI 解释和分布式公平性之间的关系,发现解释会影响公平感知,从而与人类对 AI 建议的依赖关系发生关联。该研究表明,基于特征的解释并不是改善分布式公正性的可靠机制。
Sep, 2022
研究人员探讨了 AI 系统推荐错误或不公平的情况下,人工干预的必要性,并提供了关于解释、公平感知、依赖和分布公平性之间关系的理论框架,但文献并没有提供确凿证据证明解释在实践中实现了这种补充关系。
Apr, 2022
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码技术对解释质量的影响,评估它们在不同效应大小中的功效,并展示了基于排序的评估指标的不一致性的来源。
Apr, 2024
本文探讨了 AI 系统中基于反事实进行的解释在实际应用中所带来的影响以及其引发的因果信念变化,通过实验证明了提供 AI 系统预测的反事实解释会影响人们对于该预测所关联的特征是否具有因果性的判断,其结果表明指出 AI 系统只能捕捉到相关关系而非因果关系可以减轻其影响。
May, 2022
本文针对可解释人工智能中的对策解释方法(Counterfactual explanations)中存在的异议问题(the disagreement problem)进行了大规模实证研究,发现不同算法生成的解释之间存在高度异议,从而呼吁更多关于算法决策透明度的讨论和实验研究。
Apr, 2023