ICLROct, 2020

基于投影的约束策略优化

TL;DR本研究提出了一种新的算法,投影约束策略优化(PCPO),用于学习控制策略,以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束,结果表明与现有的方法相比,PCPO 在多个控制任务中的表现优异,约束违反率平均低至 3.5 倍左右,奖励水平约高 15% 左右。