Jul, 2019

二时间尺度强化学习的有限时间性能界和自适应学习率选择

TL;DR本文研究两种时间尺度线性随机逼近算法,并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限,最终设计出一种自适应学习速率方案,以显著提高收敛速度和表现。