Feb, 2024

通向广义逆强化学习

TL;DR这篇论文研究了马尔可夫决策过程中的广义逆强化学习(GIRL),即通过观察到的行为(策略)来学习马尔可夫决策过程的基本组成部分,这些组成部分可能不是最佳的。我们解决了GIRL中的两个关键挑战:首先,需要量化观察到的策略与基本的最优策略之间的差异;其次,在基本的马尔可夫决策过程组成部分不可观察或部分可观察时,对基本的最优策略进行数学描述的困难。然后,我们提出了GIRL的数学形式,并开发了一种快速的启发式算法。有限状态和无限状态问题的数值结果显示了我们的形式化方法和算法的优点。