Nov, 2020

两时间尺度值基强化学习算法的样本复杂度界限

TL;DR本文研究了基于价值的强化学习算法中,线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度,并给出了最优的样本复杂度和最优化误差控制速率。