实用的线性时间差分学习研究

Feb, 2016

Investigating practical linear temporal difference learning

Adam White, Martha White

TL;DR本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Abstract

off-policy reinforcement learning has many applications including: learning from demonstration, learning multiple goal seeking policies in parallel, and representing predictive knowledge. Recently there has been an proliferation of new →

off-policy reinforcement learning policy-evaluation algorithms function approximation linear complexity temporal difference updates

发现论文，激发创造

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

监督学习的 MRP 公式化：广义时间差异学习模型

该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在特定条件下，尤其是在噪声相关时，TD 的解决方案比 OLS 更有效。在线性函数逼近下，该研究建立了广义 TD 算法的收敛性，并通过实证研究验证了理论结果，展示了该算法在各种数据集及任务（如回归和深度学习的图像分类）上的实用性。

Apr, 2024

近似时序差分学习是可逆策略的梯度下降

该论文探讨了在强化学习中，通过使用 Dirichlet 范数来代替标准的误差计算方法，即使在使用非线性参数近似的情况下，也可以确保 TD 算法的收敛性并解决梯度消失问题。

May, 2018

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023