本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析,并在此基础上提出了具有分块减小的步长的 TDC 算法,实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度,并在减小步长的情况下仍保持与 TDC 相当的精度。
Sep, 2019
用马尔可夫噪声对线性二时间尺度随机逼近算法进行了收敛性分析,得到了该算法各种步长选择下的收敛行为,应用结果到 TDC 算法得到了比之前工作更好的收敛性样本复杂度,该结果还适用于确定各种强化学习算法的收敛行为,如带有 Polyak 平均的 TD 学习,GTD 和 GTD2。
Dec, 2023
以两时间步随机逼近框架为基础的渐变时序差异方法(GTD (0)、GTD2 和 TDC)的收敛速率界限及其证明。
Nov, 2019
本文提供了一个线性双时间尺度随机逼近方法的有限时间分析,结果表明在马尔可夫噪声和鞅噪声下没有收敛速率的区别,只有马尔可夫链的混合时间会影响常数,并提出了一个匹配的下界。
Feb, 2020
本研究首次提出两个时间尺度随机逼近的渐近收敛性分析,其中包括非加性控制的马尔可夫噪声。通过与限制微分协同关系进行比较,分析了控制马尔可夫过程的基于随机逼近的渐近行为,最终提供了具有线性功能逼近的离策略收敛问题的解决方案。
Mar, 2015
本文研究两种时间尺度线性随机逼近算法,并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限,最终设计出一种自适应学习速率方案,以显著提高收敛速度和表现。
Jul, 2019
本文介绍了两种单时间步单循环算法,分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度,降低了数据采样量,同时在理论上证明了算法的收敛性和收敛速度。
Aug, 2020
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的 Minimax 下界相匹配,包括特征映射的选择和问题维数。
May, 2023
提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性,该算法在强化学习中表现出色,超越或与现有的最先进方法相匹配,并通过强化学习中的数值模拟验证了理论结果。
May, 2024
研究了一种在 Markovian 噪声下的非线性随机逼近算法,证明了其具有不同学习速率的有限样本收敛界限,并证明了其适用于 Q-learning 算法。
May, 2019