Mar, 2017

多阶段强化学习:一个统一的算法

TL;DR本文研究了一种新的多步行动值算法 $Q(\sigma)$,它统一和概括了现有的算法,在包含它们的情况下将它们作为特殊情况。我们引入了一个新参数 $\sigma$,它允许在备份过程中每一步算法执行的采样程度连续变化。在实验中,我们发现 $Q(\sigma)$ 的中间值可以在一定程度上取得比纯采样和纯期望更好的性能,并且混合值可以动态变化,从而导致更大的性能提高。