May, 2024

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

TL;DR我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。