Apr, 2024

离线强化学习的轨迹概括

TL;DR通过世界转换器进行线下强化学习的离线轨迹泛化方法(OTTO)在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。