ICMLMay, 2023

基于能量模型的奖励条件下贝叶斯重新参数化增强学习

TL;DR提出了一种名为 Bayesian Reparameterized RCRL(BR-RCRL)的奖励条件强化学习新方法,它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题,取得了比传统方法高出 11% 的性能在 Gym-Mujoco 和 Atari 离线 RL 基准中.