Jun, 2024

同时双 Q 学习的有限时间分析

TL;DR该论文提出了一种改良的双 $Q$- 学习方法,称为同步双 $Q$- 学习(SDQ),并通过有限时间分析展示了其性能。SDQ 消除了在两个 $Q$- 估计器之间的随机选择,这种改进使得我们可以通过一种新颖的切换系统框架来分析双 $Q$- 学习,从而有助于进行高效的有限时间分析。实证研究表明,与双 $Q$- 学习相比,SDQ 收敛更快,同时保留了降低最大化偏差的能力。最后,我们推导了 SDQ 的有限时间预期误差界限。