ICMLDec, 2019

基于模型的组合状态和动作空间学习与规划的全球方案

TL;DR本文提出了一种形式化方法,通过学习动态模型和观察状态转移示例来导出世界程序,并将其作为复杂规划任务的模拟器,以进行强化学习。作者强调了最近的应用,并提出了基于世界程序规划的挑战,以评估学习算法的性能。