May, 2023

使用轨迹解释强化学习决策

TL;DR本研究提出了一种基于训练中遇到的轨迹来解释训练好的RL代理决策的方法,并通过在离线环境中进行网格世界、视频游戏和连续控制等不同领域的实验,展示了这种方法在可解释性和可扩展性方面的有效性。