ICLRMay, 2018

奖励受限策略优化

TL;DR提出了一种名为 “奖励约束策略优化(RCPO)” 的多时间尺度方法,该方法使用替代惩罚信号引导策略满足约束,并证明了该方法的收敛性和训练满足约束的策略的能力。