Oct, 2019

使用非线性函数逼近优化Zap Q-Learning

TL;DR该研究介绍了一种新的递归算法分析框架,其中包括Zap Q-learning,使用神经网络功能逼近,经多次实验证明该算法具有快速收敛性和适应多种功能逼近结构的特点。