直接梯度时差学习

Aug, 2023

Direct Gradient Temporal Difference Learning

Xiaochi Qian, Shangtong Zhang

TL;DR提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Abstract

off-policy learning enables a reinforcement learning (RL) agent to reason counterfactually about policies that are not executed and is one of the most important ideas in RL. It, however, can lead to instability when combined with →

off-policy learning function approximation bootstrapping gradient temporal difference (gtd)refined discretization of limiting odes

发现论文，激发创造

近端梯度时序差分学习：具有多项式样本复杂度的稳定强化学习

本文介绍了近端梯度时序差分学习，通过引入原始 - 对偶鞍点目标函数，提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法，并提出了一种名为 GTD2-MP 的加速算法，使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。

Jun, 2020

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

Proximal Gradient TD 算法的有限样本分析

本文旨在分析梯度时序差分学习（GTD）算法族的收敛速率，将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法，并进行鞍点误差分析以获得其性能的有限样本界限，提出了两种改进的算法，即投影 GTD2 和 GTD2-MP，理论分析结果表明，GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。

Jun, 2020

非线性分布式梯度时序差分学习

提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

May, 2018

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

两个时间尺度的离线 TD 学习：对马尔可夫样本的非渐进分析

本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析，并在此基础上提出了具有分块减小的步长的 TDC 算法，实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度，并在减小步长的情况下仍保持与 TDC 相当的精度。

Sep, 2019

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019