May, 2020

两个时间尺度演员评论家方法的有限时间分析

TL;DR本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究,证明了该方法可以找到非凸性能函数的一阶稳定点,并提供了样本复杂度的有限时间约束。