Mar, 2014
用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法
Variance-Constrained Actor-Critic Algorithms for Discounted and Average Reward MDPs
Prashanth L.A., Mohammad Ghavamzadeh
TL;DR研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。