非线性分布式梯度时序差分学习

May, 2018

Nonlinear Distributional Gradient Temporal-Difference Learning

Chao Qu, Shie Mannor, Huan Xu

TL;DR提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

Abstract

We devise a distributional variant of gradient temporal-difference (TD) learning. distributional reinforcement learning has been demonstrated to outperform the regular one in the recent study \citep{bellemare2017distributional}. In the policy evaluation setting, we design two new algor

distributional reinforcement learning gradient td algorithms cramer distance function approximators neural networks

发现论文，激发创造

分布式时间差分的统计效率

本文研究分布增强学习中的分布策略评估问题，并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能，通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系，同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。

Mar, 2024

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

近端梯度时序差分学习：具有多项式样本复杂度的稳定强化学习

本文介绍了近端梯度时序差分学习，通过引入原始 - 对偶鞍点目标函数，提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法，并提出了一种名为 GTD2-MP 的加速算法，使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。

Jun, 2020

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019

时间差分与残差梯度在神经网络逼近中的实验比较

我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优，同时我们还发现了强化学习和监督学习之间的一个关键差异，即小的 Bellman 残差误差可能对应一个不好的策略。我们进一步证明了 TD 中的缺失项是 RG 表现不佳的重要原因。我们的研究表明，深度 Q 学习的性能与训练动态密切相关，如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。

May, 2022

具有正则化修正的梯度时序差分学习

介绍了一种新的 TD 方法 ——TDRC，它在易用性、正确性和性能之间平衡，在 TD 表现良好时，表现与 TD 相当，并且在 TD 发散时保持正确性。

Jul, 2020