Mar, 2017

粒子价值函数

TL;DR本文介绍从经济学和控制学文献中借鉴的风险敏感价值函数及其对粒子值函数的引入,探讨这些函数对于强化学习问题的应用,以及在Cliffworld场景中评估政策梯度的效益。