Feb, 2016

通过引导的深度 Q 学习进行深度探究

TL;DR为解决强化学习中复杂环境下的探索问题,本文提出了一种简单的算法 bootstrapped DQN,通过使用随机值函数实现计算上和统计上的高效探索。与 epsilon-greedy 策略不同,bootstrapped DQN 实现了时序扩展探索,从而可以实现指数级别的更快学习。我们在复杂随机 MDPs 和大规模的街机学习环境中展示了这些优点,并发现 Bootstrapped DQN 可以显著提高 Atari 游戏的学习时间和表现。