Sep, 2011

带政策语言偏差的近似策略迭代:解决关系马尔可夫决策过程

TL;DR研究大规模关系型马尔科夫决策过程(MDP)的政策选择方法,考虑一种近似政策迭代(API) 的变体,用学习步骤在政策空间中替换通常的值函数学习步骤,介绍一个关系型政策语言和相应的学习器,以及基于随机游走的面向目标的规划域的自举例行程序,实验结果表明,该系统能够解决一系列的规划域和其随机变体,但提出了一些局限性建议未来工作。