Mar, 2024
迭代 Q 网络:超越一步 Bellman 算子
Iterated $Q$-Network: Beyond the One-Step Bellman Operator
Théo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo D'Eramo
TL;DR值基于强化学习的研究论文,介绍了一种新方法 (iterated Q-Networks),通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近,理论上可行,并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中,通过实验证明了其优势。