Nov, 2022

关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

TL;DR本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法,通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function,证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。