监督学习的 MRP 公式化：广义时间差异学习模型

Apr, 2024

监督学习的 MRP 公式化：广义时间差异学习模型

An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models

Yangchen Pan, Junfeng Wen, Chenjun Xiao, Philip Torr

TL;DR该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在特定条件下，尤其是在噪声相关时，TD 的解决方案比 OLS 更有效。在线性函数逼近下，该研究建立了广义 TD 算法的收敛性，并通过实证研究验证了理论结果，展示了该算法在各种数据集及任务（如回归和深度学习的图像分类）上的实用性。

Abstract

In traditional statistical learning, data points are usually assumed to be independently and identically distributed (i.i.d.) following an unknown probability distribution. This paper presents a contrasting viewpoint, perceiving data points as interconnected and employing a

statistical learning markov reward process reinforcement learning temporal difference learning linear function approximation

发现论文，激发创造

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

分布式强化学习的原始对偶算法：分布式 GTD

研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。

Mar, 2018

近端梯度时序差分学习：具有多项式样本复杂度的稳定强化学习

本文介绍了近端梯度时序差分学习，通过引入原始 - 对偶鞍点目标函数，提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法，并提出了一种名为 GTD2-MP 的加速算法，使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。

Jun, 2020

分布式时间差分的统计效率

本文研究分布增强学习中的分布策略评估问题，并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能，通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系，同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。

Mar, 2024

非线性分布式梯度时序差分学习

提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

May, 2018

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022