Mar, 2014

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

TL;DR研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。