Mar, 2008

价值梯度强化学习

TL;DR该研究介绍和发展了价值梯度的概念在强化学习中的应用,证明了学习价值梯度对于控制问题的效率明显优于仅学习价值,证明了价值梯度学习算法和策略梯度学习算法之间的一个惊人等价。通过在几个问题域中实验,发现使用价值梯度可以使效率提升几个数量级,从而不再需要探索或随机行为来查找局部最优轨迹。