Jan, 2021

两时间尺度自然演员 - 评论家算法的有限样本分析

TL;DR本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用,提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性,评估其采样轨迹的有效性,并以样本数为单位展开学习效率的分析,为优化全局最优解的搜索提出了提高性能的方法。