Oct, 2017

深度抽象 Q 网络

TL;DR我们结合深度强化学习和现有的模型基础方法,使用由专家提供的状态抽象来解决长视野、稀疏奖励和高维输入的问题。我们的抽象方法在 Montezuma's Revenge 等领域比深度 Q 网络表现更好,并呈现出在以前方法中不存在的回溯行为。