ICMLJul, 2022

离线强化学习策略应该被训练成具有自适应性

TL;DR该研究提出离线 RL 方法应该适应不确定性,提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略,并且在离线 RL 基准测试中展示了其有效性。