信念偏误和解释的交互作用
该研究通过一个基于随机抽样的实验,旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性,结果表明,人类往往会倾向于较少批判性地接受该类解释。
Nov, 2022
本研究通过心理物理实验评估了 AI 系统的说明方法的人类使用者的理解能力,并发现不同的场景对于提高人类理解 AI 系统的说明方法的效果存在较大的差异,因此需要开发提供定性信息的补充方法。
Dec, 2021
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
机器学习算法越来越被用于组织的决策中,特征解释引入因果模型的语义,导致决策者的先验偏见泄漏,并产生确认偏见和决策结果的差异,从而导致次优和有偏的决策结果。
Jun, 2022
通过人类实验,我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策,这一结果挑战了应用这些方法的普遍好处的假定,在可解释的 AI 研究中人类评价的重要性下应该得到重视。
Dec, 2020
通过一项关于程序生成解释的实证研究,我们发现不同类型的解释如何影响人们对机器学习系统的公平判断,其中某些解释可增强人们对算法公正性的信心,但也有部分解释会被认为是不公平的,此外,不同类型的解释也能更有效地揭示不同的公平问题,因此我们讨论了提供个性化和自适应的解释来支持机器学习系统的公平判断。
Jan, 2019
通过用户研究,本研究评估了可解释人工智能在实际场景中对人类决策的改进效果,结果发现虽然解释有助于用户更准确地描述模型,但对于模型选择和反事实模拟这两个任务,并没有找到使用任何显著改进的证据,这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。
Dec, 2023
本文提出了 “描述性解释” 和 “说服性解释” 的区别,讨论了功能解释与认知功能和用户偏好可能相关的推理,并提出了两个研究方向来消除认知功能和解释模型之间的歧义,保持准确性和可解释性之间的权衡控制。
Nov, 2017
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
May, 2024
研究透明度如何为机器人和人工智能提供自然语言解释,并评估自然语言生成方法的相关度量来生成这些解释,发现基于嵌入的自动自然语言生成评估方法具有更高的相关性,这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。
Mar, 2021