May, 2024

改进的有限时间分析:基于深度神经网络的时差学习

TL;DR本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度 Ο̃(ε^(-1)),在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度,相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。