Jul, 2023

Q-learning设计与乐观性的稳定性

TL;DR该论文介绍了Q-learning在强化学习工具中的重要性,提供了随机逼近和Q-learning的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了Q-learning中线性函数逼近的稳定性问题,以及设计了一种近似牛顿-拉普森流动的算法。