本文提出了使用程序作为模型无关解释的方法,通过基于模拟退火的原型程序归纳方法,对黑匣子分类器进行本地行为的近似,生成的解释对于多个分类器具有直观性和准确性。
Nov, 2016
本文研究了产生于复杂模型后期的线性解释或与上下文解释网络(CENs)一起产生的线性解释。研究主要聚焦于线性解释是否一直是始终如一的或容易引导,同时研究在将其整合到预测过程中时,解释是否会影响模型程序的表现。我们的分析揭示了不同方法产生的解释的某些属性,并建议共同预测和解释的学习模型经常具有优势。
Jan, 2018
本文探讨了针对复杂黑箱机器学习模型的显著性解释的客观评估措施,并提出了两种最近文献中考虑的(不)逼真度和敏感性的简单稳健变体。通过优化这些措施的最优解释,我们提出了一种新颖的方法,通过改变定义不忠实度的扰动分布来获得新颖的解释,我们显示出其在定量和定性测量方面优于现有解释。
Jan, 2019
本论文研究了解释生成函数和学习模型的中间表示之间的联系,发现如果一个给定层的激活与解释一致,则所有后续层也一致,并研究了交集和并集作为构建新解释的一种方法。
Jan, 2020
通过交互式机器学习,将对比解释应用于黑盒机器学习系统,个性化调整其条件语句并通过提问“What if?”的方式提取更多解释,从而提高系统的透明度。
设计了一种有效算法来解释黑盒模型的预测结果,该算法通过隐式学习决策树,满足精确度和简洁性需求,并结合全局和局部解释方法
Nov, 2021
本文研究了如何使用语言描述和解释方式来改善深度强化学习智能体的学习和推理能力,特别是对于复杂环境下的关联结构和因果结构的推断,结果表明该方法可以有效地解决数据分布不清晰和因果混淆等问题。
Dec, 2021
提出了一种基于不变风险最小化 (IRM) 原则的模型无关局部解释方法,该方法能够稳定、直观地生成高保真度解释,该方法通过消除黑盒函数梯度在附近范围内突然变化的特征,实现了与实际邻居方法相当甚至更好的解释质量,同时没有必要花费过多时间来学习邻居结构。
Jan, 2022
本文利用元学习技术,通过优化解释,使得学生模型更有效地学习模拟原始模型,探讨了提供解释的明确目标及其实现方法,在三个自然语言处理和计算机视觉任务中, 通过人类注释和用户研究,发现我们提取的解释与人类解释更加贴近。
Apr, 2022
通过引入一个拓扑框架,本文研究了基于规则的解释方法的解释能力,提出了解释方案的可定义性的概念,并讨论了解释方案的选择如何取决于用户对领域和特征空间概率测度的了解程度。
Jan, 2023