May, 2023

约束型近端策略优化

TL;DR本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证,该方法的有效性至少与其他基线方法一样。