Nov, 2019

保守乐观:快速学习 CVaR 策略

TL;DR以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。