Feb, 2021

长期信用分配的合成回报

TL;DR本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足,并用其在 Atari 游戏的任务中获得了比现有技术快 25 倍的结果。