BriefGPT.xyz
Ask
alpha
关键词
generalized advantage estimator
搜索结果 - 1
一种保守的更新策略算法,用于安全强化学习
本文提出了一种基于保守策略更新和理论安全保障的 CUP 算法,并将其与新提出的性能上限和替代函数相结合。在此基础上,文章扩展了替代函数的理论分析,提供了更紧的性能上限,同时基于 GAE 设计了实现更高效的 CUP,最终实验证明了该算法的有效
→
PDF
2 years ago
Prev
Next