Jun, 2024

高效离线强化学习:批评者至关重要

TL;DR最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中的下游信息,通过有监督的蒙特卡洛值误差预训练,提高了效率。我们发现在标准基准测试中,我们能够将考虑的离线算法的训练时间减少一半以上,并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性,提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC,对行为策略和评论家进行正则化,更可靠地改进行为策略。代码可在此 URL 找到。