ICMLJul, 2022

稀疏全局对比解释下的策略优化

TL;DR本文提出了一种基于强化学习的框架,旨在通过稀疏的、易于理解的变化来改进现有的行为策略,以最小的改变获得尽可能多的利益。我们将最小的改变定义为原始策略与所提出策略之间的稀疏全局对比解释。在保持全局对比解释简短的约束条件下改进当前策略,并在离散 MDP 和连续 2D 导航领域中演示了我们的框架。