Mar, 2014

用于折扣和平均奖励 MDP 的方差约束Actor-Critic算法

TL;DR研究采用演员-评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。