Dec, 2023
基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证:应用于产品形式随机网络和排队系统
Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems
TL;DR通过利用底层MDP的结构,引入了一种新的梯度估计器家族——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的actor-critic等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。