Aug, 2019

关于策略梯度方法的理论:最优性、逼近和分布偏移

TL;DR本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。