Jun, 2020

重新理解循环策略网络的有限状态表达

TL;DR该研究提出了一种通过分析未经最小化的有限状态机以及应用更可解释的规约方式比通过将递归策略网络转换为有限状态机之后进行分析更好地理解受控策略并达到更加深刻认识的方法,另外还提供了一种注意力工具,用于刻画观察对决策的影响,并在7个Atari游戏和3个控制基准测试中进行了验证。