本文介绍了一种名为 Impression GTD 的全新 GTD 算法,通过最小化期望 TD 更新的范数目标实现单时间尺度,并证明该算法的收敛速度至少为 O (1/t),甚至更快。同时,与现有的 GTD 算法相比,该算法在在线学习和离线学习问题中表现更快,具有比较稳定的步长范围。
Jul, 2023
本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析,并在此基础上提出了具有分块减小的步长的 TDC 算法,实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度,并在减小步长的情况下仍保持与 TDC 相当的精度。
Sep, 2019
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD(λ)和 ETD(λ)的首个收敛性证明,并针对一般的离线策略研究了 ELSTD(λ)迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。
Jun, 2015
本文旨在分析梯度时序差分学习(GTD)算法族的收敛速率,将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法,并进行鞍点误差分析以获得其性能的有限样本界限,提出了两种改进的算法,即投影 GTD2 和 GTD2-MP,理论分析结果表明,GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。
Jun, 2020
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析,证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关,说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。
Sep, 2018
以两时间步随机逼近框架为基础的渐变时序差异方法(GTD (0)、GTD2 和 TDC)的收敛速率界限及其证明。
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
Apr, 2017
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应用的理论解释。
Jun, 2023