强化学习政策级解释的生成

AAAIMay, 2019

Generation of Policy-Level Explanations for Reinforcement Learning

Nicholay Topin, Manuela Veloso

TL;DR为了解释深度强化学习序列的决策，该研究提出了抽象策略图，作为一系列状态的马尔可夫链，以及基于值函数和观测到的转换的抽象策略图生成方法。该方法适用于许多现有的强化学习方法，具有二次时间复杂度和可靠性。

Abstract

Though reinforcement learning has greatly benefited from the incorporation of neural networks, the inability to verify the correctness of such systems limits their use. Current work in →

reinforcement learning neural networks explainable deep learning markov chains value function

发现论文，激发创造

通过模型转换的可解释强化学习

通过使用形式化的马尔科夫决策过程抽象和转换，以自动产生解释的方式，解释强化学习智能体的新兴行为。

Sep, 2022

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

基于状态转移模型的基于特征的可解释强化学习

提出了一种基于状态转移模型的强化学习局部可解释风险的方法，并通过实验证明了其有效性。

May, 2021

基于图形的可解释强化学习的两步混合策略学习

本文提出了一种基于图形输入的两步式 RL 策略，透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理，能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。

Jan, 2022

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

多智能体强化学习的策略解释

本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段：关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中，表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。

Apr, 2022

基于 QP 和 MPC 的强化学习之间的桥梁

本文采用基于 QP（Quadratic Programs）的方法，取代采用 DNN 的方法来学习 RL 中的价值函数和策略，以此提高其可解释性和简化结构，并且给出了调整可解释性和简化结构的方法。

May, 2022

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏（技术报告）

在强化学习中，为了解决政策简化和验证的挑战，作者们构建了 DeepMDP 框架，基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界，该边界可以为 MDP 的形式方法应用提供支持。同时，作者们还演示了如何通过最先进的 RL 获得一个政策，并使用该政策有效地训练一个 VAE 模型，获得这个模型的双模拟保证的近似正确性的提炼版。

Dec, 2021

深度强化学习的验证性概率策略

本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法，用于验证深度强化学习中的概率策略，并在一些强化学习基准测试上验证了其有效性。

Jan, 2022

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020