ICMLJun, 2021

基于模型的强化学习通过潜空间配置

TL;DR该研究使用学习的潜在状态空间模型,结合目测模型强化学习方法,提出了一种优化潜在状态轨迹的 LatCo 方法,来解决长时程、奖励稀疏的任务。通过序列规划,相比于之前使用的射击方法,该方法在历经时间过程中的效果更好。