Jun, 2022

通过保守的自然策略梯度原始-对偶算法实现约束强化学习的零约束违反

TL;DR提出一种新颖的C-NPG-PD算法以达到全局最优并减少训练样例复杂度,解决了连续状态-动作空间下的限制马尔可夫决策过程问题。