Jul, 2024

约束强化学习的政策梯度最后迭代全局收敛

TL;DR通过梯度下降的原始对偶算法,我们提出了一种通用框架来解决受限强化学习问题,并介绍了基于动作和参数的版本C-PGAE和C-PGPE。我们在受约束控制问题上进行了数值验证,并与最先进的基准进行了比较,证明了算法的有效性。