Aug, 2020

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

TL;DR本文介绍了两种单时间步单循环算法,分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度,降低了数据采样量,同时在理论上证明了算法的收敛性和收敛速度。