BriefGPT.xyz
Ask
alpha
关键词
reward constrained policy optimization
搜索结果 - 1
ICLR
奖励受限策略优化
提出了一种名为 “奖励约束策略优化(RCPO)” 的多时间尺度方法,该方法使用替代惩罚信号引导策略满足约束,并证明了该方法的收敛性和训练满足约束的策略的能力。
PDF
6 years ago
Prev
Next