AAAIMay, 2019

强化学习政策级解释的生成

TL;DR为了解释深度强化学习序列的决策,该研究提出了抽象策略图,作为一系列状态的马尔可夫链,以及基于值函数和观测到的转换的抽象策略图生成方法。该方法适用于许多现有的强化学习方法,具有二次时间复杂度和可靠性。