AAAIDec, 2019

非马尔可夫奖励强化学习

TL;DR研究了在具有非马尔可夫奖励的情况下,采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。