IJCAIJun, 2019
深度强化学习中的探索目标:奖赏预测误差
Reward Prediction Error as an Exploration Objective in Deep RL
Riley Simmons-Edler, Ben Eisner, Daniel Yang, Anthony Bisulco, Eric Mitchell...
TL;DR该论文提出了一种基于 Q 值函数的深度增强学习方法 QXplore,通过最大化预测外在奖励的值函数的奖励预测误差来解决高维 MDPs 的难解探索任务,该方法相比于基于状态新颖性的方法,在很多任务中表现更好。