Dec, 2023

基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证:应用于产品形式随机网络和排队系统

TL;DR通过利用底层MDP的结构,引入了一种新的梯度估计器家族——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的actor-critic等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。