为可解释强化学习进行因果状态精炼

Dec, 2023

为可解释强化学习进行因果状态精炼

Causal State Distillation for Explainable Reinforcement Learning

Wenhao Lu, Xufeng Zhao, Thilo Fryen, Jae Hee Lee, Mengdi Li...

TL;DR本文介绍了一种扩展奖励分解方法的因果学习框架，通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性：因果充分性、稀疏性和正交性，并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程，从而为行动选择提供更有意义和有洞察力的解释。

Abstract

reinforcement learning (RL) is a powerful technique for training intelligent agents, but understanding why these agents make specific decisions can be quite challenging. This lack of transparency in RL models has been a long-standing problem, making it difficult for users to grasp the

reinforcement learning reward decomposition causal learning explanations decision-making

发现论文，激发创造

增强学习的因果解释：量化状态和时间重要性

本文研究了强化学习中的可解释性问题，提出了一种基于因果关系的解释机制并通过模拟实验验证了其在解释政策方面的优势。

Oct, 2022

高水平机器人解释的奖励分解探究

本文提出利用抽象动作和奖励分解技术的可解释学习框架，使得机器人动作的解释更易于人类理解，并通过两个场景的定量和定性分析，展示了该框架的有效性。

Apr, 2023

无模型可解释强化学习的远距离解释

本论文介绍和评估了一种远程解释模型，该模型可为模型无关的强化学习代理生成为 “为什么” 和 “为什么不” 问题的解释，通过决策树和因果模型可分析对立假设和机会链。实验表明，该模型在不同强化学习算法的 6 个基准测试中产生了改进的结果。

Jan, 2020

基于状态转移模型的基于特征的可解释强化学习

提出了一种基于状态转移模型的强化学习局部可解释风险的方法，并通过实验证明了其有效性。

May, 2021

通过因果世界模型实现可解释的强化学习

本文针对强化学习中行为的长期影响，提出了一种基于因果世界模型的可解释强化学习框架。该模型能够捕捉行为的影响，通过因果链解释行为的长期效应，从而提高模型的可解释性，同时保持了准确性，使其适用于基于模型的学习。实验结果表明，因果模型可以作为解释性和学习之间的桥梁。

May, 2023

因果透镜下的可解释强化学习

本文使用因果关系模型来推导强化学习器的行为的因果解释，并通过对一项实验的研究结果表明，基于因果模型的解释在任务预测、解释满意度和信任方面表现更好。

May, 2019

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来 XRL 研究面临的挑战和机遇。

Nov, 2022

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

基于预期后果的强化学习对比解释

本文提出了一种方法，使强化学习代理能够解释其行为，以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述，并使用一种可生成解释的格式，进行了计算，结果表明人类用户倾向于关注政策而非单个操作。

Jul, 2018

RICE: 强化学习训练突破瓶颈的解释方法

我们提出了一种创新的强化学习改进方案 RICE，该方案通过结合默认初始状态和通过解释方法确定的关键状态构建新的初始状态分布，以鼓励智能体从混合的初始状态进行探索，理论上保证了改进方案具有更紧密的次最优性限制，评估结果表明 RICE 在增强智能体性能方面显著优于现有的改进方案。

May, 2024