可证明高效、简洁、精度高的解释
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
对于可解释人工智能的半事实即使思考的局部事后解释性查询进行了研究,比较了不同类别的模型的计算复杂度,发现线性模型和基于树的模型比神经网络更具可解释性。然后引入了一种基于偏好的框架,使用户能够根据其偏好进行个性化解释,无论是在半事实还是对事实进行优化,增强了可解释性和用户中心性。最后,探索了所提出的基于偏好的框架中几个可解释性问题的复杂性,并提供了多项式情况下的算法。
Jan, 2024
本研究提出了概率充分解释的理念,即通过 “足够简单” 的特征子集来 “足以” 解释分类行为,并结合可扩展的概率推理算法设计出可行的实现方案。实验证明,本算法找到的充分解释更有效,且优于基准模型 Anchors 和逻辑解释。
May, 2021
提出了 BETA 框架,通过透明的逼近来解释任何黑盒分类器的行为,允许用户交互式地探索用户感兴趣的不同子空间中黑盒模型的行为。实验评估表明,与现有基线相比,该方法可以生成高度紧凑,易于理解,但准确的各种预测模型的逼近。
Jul, 2017
本文提出了一种名为 LORE 的黑匣子探明方法,能够从逻辑和反事实规则两个层面解释黑匣子机器学习模型的决策原因,从而提高其在社会敏感和安全关键环境中的可用性和透明度。
May, 2018
通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019
本文提出了基于贝叶斯框架的黑盒模型解释方法,能够生成可靠的局部解释和其关联的不确定性,并且具有稳定性和高度一致性,可以快速地解决几个重要问题。通过实证研究,证明了该方法的有效性,并提高了解释的可靠性。
Aug, 2020
研究使用背景知识使得可解释的人工智能更简洁易懂,并使用现有的规则归纳技术从数据集中提取背景信息来做出预测并报告使用的背景信息,帮助人类检查解释的正确性。
Jun, 2022