May, 2024

Q 学习作为单调方案

TL;DR应用线性二次示例来研究强化学习方法中存在的稳定性和收敛性问题,并在函数逼近对单调性属性的影响方面解释确切 Q-learning 的收敛准则。