Aug, 2024
用于连续空间约束MDP的确定性策略梯度原始-对偶方法
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space
Constrained MDPs
TL;DR本研究解决了连续状态和动作空间的约束马尔可夫决策过程(MDP)中计算确定性最优策略的问题。我们提出了一种新的确定性策略梯度原始-对偶(D-PGPD)算法,具有非渐近收敛性,能有效地更新确定性策略和对偶变量,且在机器人导航和流体控制这两种连续控制问题中验证了其有效性。此方法是首个针对连续空间约束MDP提出的确定性策略搜索方法。