本文研究两种时间尺度线性随机逼近算法,并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限,最终设计出一种自适应学习速率方案,以显著提高收敛速度和表现。
Jul, 2019
本文研究了基于价值的强化学习算法中,线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度,并给出了最优的样本复杂度和最优化误差控制速率。
Nov, 2020
本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析,并在此基础上提出了具有分块减小的步长的 TDC 算法,实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度,并在减小步长的情况下仍保持与 TDC 相当的精度。
Sep, 2019
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性,该算法在强化学习中表现出色,超越或与现有的最先进方法相匹配,并通过强化学习中的数值模拟验证了理论结果。
May, 2024
本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析,证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关,说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。
Sep, 2018
本文介绍了一种名为 Impression GTD 的全新 GTD 算法,通过最小化期望 TD 更新的范数目标实现单时间尺度,并证明该算法的收敛速度至少为 O (1/t),甚至更快。同时,与现有的 GTD 算法相比,该算法在在线学习和离线学习问题中表现更快,具有比较稳定的步长范围。
Jul, 2023
本文旨在分析梯度时序差分学习(GTD)算法族的收敛速率,将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法,并进行鞍点误差分析以获得其性能的有限样本界限,提出了两种改进的算法,即投影 GTD2 和 GTD2-MP,理论分析结果表明,GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。
Jun, 2020
本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用,提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性,评估其采样轨迹的有效性,并以样本数为单位展开学习效率的分析,为优化全局最优解的搜索提出了提高性能的方法。
Jan, 2021
本文介绍了两种单时间步单循环算法,分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度,降低了数据采样量,同时在理论上证明了算法的收敛性和收敛速度。
Aug, 2020