Oct, 2013

方差调整演员 - 评论家算法

TL;DR本文提出了一个基于演员 - 评论家的框架,针对 MDPs,旨在实现方差调整的期望回报,其中评论家使用线性函数逼近,并将兼容特征的概念扩展到方差调整设置中,并提出了一种分集演员 - 评论家算法,并证明其几乎一定收敛于目标函数的局部最优点。