ICMLJul, 2023

基于模型的离线强化学习与基于计数的保守性

TL;DR本文提出了一种基于模型的离线强化学习方法 $ exttt {Count-MORL}$,该方法利用状态 - 动作对的计数估计量来量化模型估计误差,并首次演示了计数保守性在基于模型的离线深度强化学习中的效果。通过广泛的数值实验,我们验证了使用哈希码实现的 $ exttt {Count-MORL}$ 在 D4RL 基准数据集上明显优于现有离线强化学习算法。