May, 2021

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

TL;DR本文提出了改进的强化学习算法及其复杂度分析,该算法使用离线学习和线性函数逼近,并使用时间差分学习和自然策略梯度优化,其采样复杂度为 O (ϵ^−3)。