该研究提出了一种新的用于评估解释可能性方法生成的解释质量的度量标准,并利用六种解释可能性方法在三个 NLP 任务上计算和展示了度量标准的结果。
May, 2022
本文提出一个基于数学框架的方法,构建以逐步可解释的模型。我们演示了应用于实际和合成数据集的实用算法,并定量化了 “可解释性” 的 “价格” 与预测准确性的权衡。
Jul, 2019
使用心理物理学技术研究了可解释计算机视觉算法的质量,发现经典的心理物理学方法可以用于机器学习应用程序中,而无需人为干预,使用传统的自动化质量指标计算出的质量指标不能提供一致的解释方法排名,这些发现强调了只有在人机交互的自然环境中评估解释能力才能获得真实的解释能力评估。
Jul, 2021
该研究论文旨在对可解释的机器学习进行定义和分类,并提出了一种更严谨的可解释机器学习科学评估方法的问题。
Feb, 2017
论文介绍了一种任务,用于量化生成模型的人类可解释性,该任务通过与用户交互修改表示来重构目标实例,在合成数据集上,我们发现此任务的表现比基线方法更可靠地区分纠缠和解缠模型,在真实数据集上,它区分了广泛认为但从未显示出产生更可解释模型的表示学习方法。
Feb, 2021
本文针对机器学习中可解释性的问题进行了研究,提出了一组度量用于评估不同的可解释性方法,进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中,通过对不同的基准任务进行验证,并展示如何使用这些度量指导实践者选择最合适的方法,进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。
Jul, 2020
人类如何信任人工智能及如何评估其可信度及可靠性这是应用机器学习中最为基础的问题。基于统计学习理论和社会视角,我们提出一种将人工智能作为工具的框架,即从区别人机信任与人机人信任的角度出发,运用行为证书来预测模型的行为并澄清了解释能力对于信任的贡献以及模型行为对于信任的重要性。
Feb, 2022
本文提出了 “描述性解释” 和 “说服性解释” 的区别,讨论了功能解释与认知功能和用户偏好可能相关的推理,并提出了两个研究方向来消除认知功能和解释模型之间的歧义,保持准确性和可解释性之间的权衡控制。
Nov, 2017
本文提供了一种新颖的量化指标框架,用于解释分类器和回归模型的预测结果,旨在提高人工智能系统的透明度和可信度。应用公开数据集,展示了这些指标如何更全面地理解模型预测,并在决策者和利益相关者之间促进更好的沟通,从而增加人工智能系统的整体透明度和问责度。
Feb, 2023
本文研究了不确定性和可解释性之间的联系,特别是探讨了置信度和解释性之间的关系,发现模型的置信度与我们解释模型的能力有交互作用,并提出了一种简单的实践方法来改善解释结果:调整置信度以提高解释效果。
Jul, 2022