May, 2023
VA-learning 作为比 Q-learning 更高效的替代方案
VA-learning as a more efficient alternative to Q-learning
Yunhao Tang, Rémi Munos, Mark Rowland, Michal Valko
TL;DR本研究介绍了 VA-learning 方法,通过学习优势函数和价值函数的直接引导,而不需要参考 Q 函数,从而提高了样本效率,并且在 Atari-57 游戏上,VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learning 更好的表现,同时还揭示了 VA-learning 和 dueling architecture 之间的紧密联系。