Oct, 2023

预测者:从像素到时间抽象的树搜索规划

TL;DRForecaster 是一种深度分层强化学习方法,通过对抽象层次的状态转换动态建模和训练世界模型,在高维状态空间(如像素)等复杂环境中规划高层次目标,并通过树搜索规划程序选择最优高层次目标,从而捕捉建立具有较长时间跨度的世界模型和在下游任务中规划使用这些模型的潜力。在 AntMaze 领域中的单任务学习和新任务泛化方面,我们通过实验证明了 Forecaster 的潜力。