强化学习政策级解释的生成
一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。
Apr, 2023
本文提出了一种基于图形输入的两步式 RL 策略,透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理,能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。
Jan, 2022
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段:关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中,表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。
Apr, 2022
本文采用基于 QP(Quadratic Programs)的方法,取代采用 DNN 的方法来学习 RL 中的价值函数和策略,以此提高其可解释性和简化结构,并且给出了调整可解释性和简化结构的方法。
May, 2022
在强化学习中,为了解决政策简化和验证的挑战,作者们构建了 DeepMDP 框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为 MDP 的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的 RL 获得一个政策,并使用该政策有效地训练一个 VAE 模型,获得这个模型的双模拟保证的近似正确性的提炼版。
Dec, 2021
本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法,用于验证深度强化学习中的概率策略,并在一些强化学习基准测试上验证了其有效性。
Jan, 2022
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020