AAAIJun, 2020

升值路径:走向更好的强化学习表征

TL;DR通过对价值改善路径的整体近似,以增强价值函数逼近能力,提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试,该算法的性能得到了显著提高。