Jan, 2018

线性二次型调节器的策略梯度方法全局收敛

TL;DR该研究桥接了基于模型和基于非模型策略梯度方法之间的差距,表明无模型的策略梯度方法全局收敛到最优解,并且在样本和计算复杂度方面效率很高。