Feb, 2022

一种保守的更新策略算法,用于安全强化学习

TL;DR本文提出了一种基于保守策略更新和理论安全保障的 CUP 算法,并将其与新提出的性能上限和替代函数相结合。在此基础上,文章扩展了替代函数的理论分析,提供了更紧的性能上限,同时基于 GAE 设计了实现更高效的 CUP,最终实验证明了该算法的有效性及其源代码。