Jan, 2013

分解型MDPs的策略迭代

TL;DR该论文提出了一种新的价值确定方法,借助简单的闭合计算来直接计算价值函数的分解逼近,以及一个基于此方法的策略迭代过程。