BriefGPT.xyz
Ask
alpha
关键词
bayesian reparameterization
搜索结果 - 1
ICML
基于能量模型的奖励条件下贝叶斯重新参数化增强学习
提出了一种名为 Bayesian Reparameterized RCRL(BR-RCRL)的奖励条件强化学习新方法,它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题,取得了比传统方法高出 11% 的性能在 Gym-
→
PDF
a year ago
Prev
Next