一种仅使用一个步长的新渐变 TD 算法：使用 $L$-$λ$ 平滑性进行收敛速率分析

Jul, 2023

一种仅使用一个步长的新渐变 TD 算法：使用 $L$-$λ$ 平滑性进行收敛速率分析

A new Gradient TD Algorithm with only One Step-size: Convergence Rate Analysis using $L$-$λ$ Smoothness

Hengshuai Yao

TL;DR本文介绍了一种名为 Impression GTD 的全新 GTD 算法，通过最小化期望 TD 更新的范数目标实现单时间尺度，并证明该算法的收敛速度至少为 O (1/t)，甚至更快。同时，与现有的 GTD 算法相比，该算法在在线学习和离线学习问题中表现更快，具有比较稳定的步长范围。

Abstract

Gradient Temporal Difference (GTD) algorithms (Sutton et al., 2008, 2009) are the first $O(d)$ ($d$ is the number features) algorithms that have convergence guarantees for off-policy learning with linear function approximation. Liu et al. (2015) and Dalal et. al. (2018) proved the

gtd algorithms off-policy learning convergence rates single-time-scale formulation impression gtd

发现论文，激发创造

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

两个时间尺度的离线 TD 学习：对马尔可夫样本的非渐进分析

本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析，并在此基础上提出了具有分块减小的步长的 TDC 算法，实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度，并在减小步长的情况下仍保持与 TDC 相当的精度。

Sep, 2019

Proximal Gradient TD 算法的有限样本分析

本文旨在分析梯度时序差分学习（GTD）算法族的收敛速率，将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法，并进行鞍点误差分析以获得其性能的有限样本界限，提出了两种改进的算法，即投影 GTD2 和 GTD2-MP，理论分析结果表明，GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。

Jun, 2020

最紧密的有限时间界约束下的两时间尺度强化学习故事

以两时间步随机逼近框架为基础的渐变时序差异方法（GTD (0)、GTD2 和 TDC）的收敛速率界限及其证明。

Nov, 2019

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

马尔可夫环境下有限样本分析 GTD 策略评估算法

本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析，证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关，说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。

Sep, 2018

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

两时间尺度值基强化学习算法的样本复杂度界限

本文研究了基于价值的强化学习算法中，线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度，并给出了最优的样本复杂度和最优化误差控制速率。

Nov, 2020

近端梯度时序差分学习：具有多项式样本复杂度的稳定强化学习

本文介绍了近端梯度时序差分学习，通过引入原始 - 对偶鞍点目标函数，提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法，并提出了一种名为 GTD2-MP 的加速算法，使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。

Jun, 2020