Nov, 2023

偏置策略梯度方法的二阶收敛性初步分析

TL;DR强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点,但应用于无限时限贴现设置的实际实现包括Monte-Carlo方法和演员-评论家方法,在使用有偏梯度估计器的梯度下降更新时,已有的结果只考虑了无偏梯度估计器。我们通过利用非凸优化的证明技术,对有偏的政策梯度算法收敛到二阶稳定点的初步结果进行了展示,并旨在为演员-评论家算法提供首个有限时间的二阶收敛性分析。