IJCAIJun, 2019

深度强化学习中的探索目标:奖赏预测误差

TL;DR该论文提出了一种基于 Q 值函数的深度增强学习方法 QXplore,通过最大化预测外在奖励的值函数的奖励预测误差来解决高维 MDPs 的难解探索任务,该方法相比于基于状态新颖性的方法,在很多任务中表现更好。