Jul, 2021

普通策略梯度的一般样本复杂性分析

TL;DR本文使用最近为非凸优化分析SGD开发的工具,获得了vanilla policy gradient(PG)的收敛性和样本复杂性保证。