Dec, 2019

基于神经网络函数逼近的 Q 学习的有限时间分析

TL;DR本文提出了一种有限时间的神经 Q 学习算法,其中数据是从 Markov 决策过程中生成的,动作价值函数由 Deep ReLU 神经网络逼近,我们证明了如果神经功能逼近器被足够过度参数化,神经 Q 学习可以找到具有 O(1 / 根号 T)收敛速度的最优策略,并且该结果是对非 i.i.d 数据假设的首次有限时间分析。