Mar, 2024

迭代 Q 网络:超越一步 Bellman 算子

TL;DR值基于强化学习的研究论文,介绍了一种新方法 (iterated Q-Networks),通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近,理论上可行,并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中,通过实验证明了其优势。