BriefGPT.xyz
Ask
alpha
关键词
d4rl benchmark datasets
搜索结果 - 2
离线强化学习的轨迹概括
通过世界转换器进行线下强化学习的离线轨迹泛化方法(OTTO)在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。
PDF
3 months ago
ICML
基于模型的离线强化学习与基于计数的保守性
本文提出了一种基于模型的离线强化学习方法 $ exttt {Count-MORL}$,该方法利用状态 - 动作对的计数估计量来量化模型估计误差,并首次演示了计数保守性在基于模型的离线深度强化学习中的效果。通过广泛的数值实验,我们验证了使用哈
→
PDF
a year ago
Prev
Next