May, 2023

VA-learning 作为比 Q-learning 更高效的替代方案

TL;DR本研究介绍了 VA-learning 方法,通过学习优势函数和价值函数的直接引导,而不需要参考 Q 函数,从而提高了样本效率,并且在 Atari-57 游戏上,VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learning 更好的表现,同时还揭示了 VA-learning 和 dueling architecture 之间的紧密联系。