Jan, 2013

使用宏操作的马尔可夫决策过程的层次解决方案

TL;DR本文提出了一种使用抽象 MDP 的分层模型,该模型仅与 Macro-actions 一起工作,并显着减少了状态空间的大小,以及讨论了生成 Macro-actions 的几种方法和重用它们以解决多个相关 MDPs 的方式。