IJCAIJun, 2021

使用信任域方法的平均奖励强化学习

TL;DR本文探讨了长期平均目标下的强化学习问题,提出了一种统一的信任区域理论和一种名为 APO 的实用算法,该算法可以改进价值估计,并且在大部分任务中表现优于折扣 PPO,提出的框架可能会补充折扣目标的强化学习框架。