Sep, 2020

未知结构分解 MDP 中的 Oracle 高效遗憾最小化

TL;DR本研究旨在通过基于乐观面对不确定性原则的算法,结合一种简单的统计方法来实现在学习 FMDP 结构的同时最小化后悔,证明了一个新的已知结构情况下处理的下界,并提出了一种变体算法,即使在现有近似规划器只限于非分解动作的情况下,仍然保持有效。