NIPSNov, 2016

探索:基于计数的深度强化学习探索研究

TL;DR通过使状态映射到哈希码中并使用哈希表计算它们的出现次数,来提高高维状态空间下的基于计数的探索策略解决 MDP 问题的性能。实验发现,简单的哈希函数和领域相关的学习哈希码都可以大大提高基于计数的探索策略的性能,且在连续控制任务和 Atari 2600 游戏中取得了接近最先进的性能表现。