Apr, 2025
理解投影贝尔曼方程、线性Q学习和近似值迭代的理论属性
Understanding the theoretical properties of projected Bellman equation,
linear Q-learning, and approximate value iteration
TL;DR本研究解决了投影贝尔曼方程(PBE)的理论性质及其求解算法线性Q学习和近似值迭代(AVI)的相关问题。论文提出了PBE解存在的两个充分条件,并探讨了SNRDD假设与线性Q学习和AVI收敛性的关系。关键发现是,在使用ε-greedy策略时对PBE解的多个有趣观察,为这类问题的深入理解提供了新的视角。