AAAIDec, 2020

自我校正 Q-Learning

TL;DR本文介绍了一种新的自我校正 Q 学习算法,其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题,并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现,在 Atari 2600 领域的多项任务中表现更好