Feb, 2020

利用平滑凸包的随机逼近的有限样本分析

TL;DR本文提出了一种基于广义Moreau信封的平滑Lyapunov函数方法,使用不同的步长展示了其在含噪声的固定点方程求解中的有限样本误差界,并将其应用于强化学习中的V-trace算法和Q-learning,获得了现有最先进的结果,且收敛边界仅在状态空间大小上具有对数依赖。