Feb, 2024

离线模型基强化学习中的达到边界问题

TL;DR模型辅助的离线强化学习方法在现有理论框架下存在无法解决的边界问题,因此提出了针对此问题的效果显著的新方法 Reach-Aware Value Learning (RAVL)。