基于心理模型的策略序列解释
本文提出了一种方法,使强化学习代理能够解释其行为,以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述,并使用一种可生成解释的格式,进行了计算,结果表明人类用户倾向于关注政策而非单个操作。
Jul, 2018
本研究通过用户研究,探究关于解释对非专家理解强化学习代理的影响,研究了视觉化saliency和最近的解释类型奖励分解条,并设计了实验以比较参与者对于简单实时战略游戏中RL代理的心理模型。结果表明,需要同时结合saliency和奖励条才能显著提高心理模型得分。
Mar, 2019
本论文介绍和评估了一种远程解释模型,该模型可为模型无关的强化学习代理生成为“为什么”和“为什么不”问题的解释,通过决策树和因果模型可分析对立假设和机会链。实验表明,该模型在不同强化学习算法的6个基准测试中产生了改进的结果。
Jan, 2020
本文提出一类新的模型解释方法-基于删除的解释,并提出一个三个方面的框架来描述和统一26种已有的模型解释方法。通过这个分析,我们发展了一个统一的框架,帮助实践者更好地理解模型解释工具,并为未来的可解释性研究提供了坚实的理论基础。
Nov, 2020
本文研究了如何使用语言描述和解释方式来改善深度强化学习智能体的学习和推理能力,特别是对于复杂环境下的关联结构和因果结构的推断,结果表明该方法可以有效地解决数据分布不清晰和因果混淆等问题。
Dec, 2021
研究人工智能的解释条件,并介绍了一种“语言框架”,以人类理解行为的民俗概念作为社会归因的框架,并且将XAI方法定性地映射到行为的民间概念中,以揭示它们的失败模式,增加了解释成功的可能性。
Jan, 2022
本文提出了一种基于人类交流行为启发的可选择性解释框架,通过选择性地展示大量模型原因的子集,根据受众的偏好来尝试解决解释型AI算法在如何生成和消耗解释方面存在重大差距的问题,并通过决策支持任务和实验研究证明了其减少依赖AI和提高决策结果和主观感知的潜力。
Jan, 2023
本文针对强化学习中行为的长期影响,提出了一种基于因果世界模型的可解释强化学习框架。该模型能够捕捉行为的影响,通过因果链解释行为的长期效应,从而提高模型的可解释性,同时保持了准确性,使其适用于基于模型的学习。实验结果表明,因果模型可以作为解释性和学习之间的桥梁。
May, 2023
我们提出了一种新颖的个性化决策支持系统,它结合了心智理论建模和可解释的强化学习,以提供有效和可解释的干预。我们的方法利用强化学习提供专家行动建议,并结合心智理论建模来理解用户的心理状态和预测他们未来的行动,从而实现适时的干预。为了解释干预结果,我们使用了基于强化学习的因果关系解释和用户的心智模型结构。我们提出的系统能够生成精确且个性化的干预措施,并且易于被最终用户解释理解。通过一系列的众包实验,我们展示了我们方法的有效性,该实验在模拟团队决策任务中优于对照基线的任务表现。我们的方法不受任务环境和强化学习模型结构的限制,因此具有广泛应用的潜力。
Dec, 2023