Jul, 2023

Q-learning 设计与乐观性的稳定性

TL;DR该论文介绍了 Q-learning 在强化学习工具中的重要性,提供了随机逼近和 Q-learning 的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题,以及设计了一种近似牛顿 - 拉普森流动的算法。