May, 2019

非线性随机逼近的有限样本分析及其在强化学习中的应用

TL;DR研究了一种在Markovian噪声下的非线性随机逼近算法,证明了其具有不同学习速率的有限样本收敛界限,并证明了其适用于Q-learning算法。