Mar, 2024

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

TL;DR通过引入多层渐进策略梯度估计方法,解决了在平均奖励增强学习中混合时间知识的依赖性问题,并取得了比之前的基于策略梯度方法(PPGAE)更高的奖励表现。