基于预期后果的强化学习对比解释

IJCAIJul, 2018

基于预期后果的强化学习对比解释

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Jasper van der Waa, Jurriaan van Diggelen, Karel van den Bosch, Mark Neerincx

TL;DR本文提出了一种方法，使强化学习代理能够解释其行为，以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述，并使用一种可生成解释的格式，进行了计算，结果表明人类用户倾向于关注政策而非单个操作。

Abstract

machine learning models become increasingly proficient in complex tasks. However, even for experts in the field, it can be difficult to understand what the model learned. This hampers trust and acceptance, and it obstructs the possibility to correct the model. There is therefore a need

machine learning transparency reinforcement learning explanations policy

发现论文，激发创造

基于状态转移模型的基于特征的可解释强化学习

提出了一种基于状态转移模型的强化学习局部可解释风险的方法，并通过实验证明了其有效性。

May, 2021

强化学习的经验性解释

通过 Experiential Explanations 生成局部反事实解释来帮助解释强化学习代理的决策，利用影响预测模型来恢复失去的关于策略如何反映环境的情境信息，并在人类评估研究中实现了更高的正确预测率和更高的解释实用性。

Oct, 2022

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来 XRL 研究面临的挑战和机遇。

Nov, 2022

增强学习的因果解释：量化状态和时间重要性