May, 2021
线性函数逼近下的离策略自然演员 - 评论家的有限样本分析
Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation
Zaiwei Chen, Sajad Khodadadian, Siva Theja Maguluri
TL;DR本文提出了改进的强化学习算法及其复杂度分析,该算法使用离线学习和线性函数逼近,并使用时间差分学习和自然策略梯度优化,其采样复杂度为 O (ϵ^−3)。