Jun, 2020

面向因式化马尔可夫决策过程的极小极大最优强化学习

TL;DR本文研究了在 FMDP 中使用最小最大算法的强化学习,提出了两种基于模型的算法,并通过结构相关的阈值证明了其保证。