Feb, 2023

平均受限策略优化

TL;DR本论文提出针对平均准则的受约束 MDPs 的一种新的(可能是第一种)策略优化算法 —— 平均约束策略优化(ACPO)算法,通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限,提供其性能的理论保证,并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作,展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。