BriefGPT.xyz
Ask
alpha
关键词
conservative methods
搜索结果 - 1
ICML
离线强化学习策略应该被训练成具有自适应性
该研究提出离线 RL 方法应该适应不确定性,提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略,并且在离线 RL 基准测试中展示了其有效性。
PDF
2 years ago
Prev
Next