May, 2024

改进的有限时间分析: 基于深度神经网络的时差学习

TL;DR本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度Ο̃(ε^(-1)),在马尔可夫采样下取得了Ο̃(ε^(-1))的复杂度,相比现有文献中已知的Ο̃(ε^(-2))复杂度是第一次实现的研究。