reward constrained policy optimization | BriefGPT

关键词reward constrained policy optimization

搜索结果 - 1

ICLR奖励受限策略优化
提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。
PDF6 years ago