Jun, 2019

策略梯度方法的全局最优性保证

TL;DR该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响,并且当这些条件变强时,可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。