Nov, 2022

针对连续动作空间的表示学习有助于有效的策略学习

TL;DR本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。