Sep, 2023

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

TL;DR我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子,它扩展了传统的 Bellman 算子。通过探索该算子的属性,我们确定了投影的多 Bellman 算子变得收敛的条件,与 Bellman 算子相比,提供了改进的定点保证。为了利用这些认识,我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点,能够得到任意精度的解。最后,我们通过将其应用于众所周知的环境来验证我们的方法,展示了我们研究结果的有效性和适用性。