时序差异学习在罕见事件预测中的令人惊讶的效率

May, 2024

时序差异学习在罕见事件预测中的令人惊讶的效率

The surprising efficiency of temporal difference learning for rare event prediction

Xiaoou Cheng, Jonathan Weare

TL;DR我们定量地评估了强化学习中政策评估的时间差异（TD）学习与直接或蒙特卡罗（MC）估计器的效率，重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD（LSTD）预测相较于 MC 能够更有效地实现相对准确性，并且通过简单的数量来验证了 LSTD 估计器的中心极限定理和相对渐近方差的上界。利用这个界限，我们证明了即使在罕见事件的时间尺度和 MC 估计器的相对准确性对于状态数都是指数级增长的情况下，LSTD 仍然能够以仅与状态数呈多项式级增长的马尔可夫链观测转换总数维持固定水平的相对准确性。

Abstract

We quantify the efficiency of temporal difference (TD) learning over the direct, or Monte Carlo (MC), estimator for policy evaluation in reinforcement learning, with an emphasis on estimation of quantities related to ra

temporal difference learning policy evaluation rare events least-squares td prediction relative accuracy

发现论文，激发创造

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

增量式截断最小二乘法

本文介绍了一种低秩 LSTD 算法，该算法能更好地平衡计算效率和采样效率，使过去的样本高效地实现对最少二乘法时间差分（LSTD）的采样复杂度，同时实现近似 LSTD 的样本复杂度。我们在模拟中给出了关于截断低秩逼近所得解的模拟界限，这表明一个偏差 - 方差折衷需要依赖秩的选择。我们证明了该算法在基准任务和高维能量分配领域的策略评估中有效地平衡了计算复杂性和采样效率。

Nov, 2015

分位数时序差分学习在价值估计中的统计优势

本研究探讨了强化学习中基于时间差分的策略评估问题，并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论，即使从业者对返回分布的平均值以外的部分不感兴趣，QTD（能够学习返回值的完整分布）在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。

May, 2023

最优无偏值估计器及其与 LSTD、TD 和 MC 的关系

通过推导最优无偏估值器（MVU）和与之相比较的三种估值器：时间差分学习（TD）、蒙特卡罗估算（MC）和最小二乘时间差分学习（LSTD），我们展示了 LSTD 仅在马尔科夫收益过程（MRP）为非循环过程时等同于 MVU 并在大多数循环 MRP 时存在偏差，同时实验证明了实现 Bellman 方程的估值器只有在特殊循环 MRP 中才能保持无偏性。

Aug, 2009

分布式时间差分的统计效率

本文研究分布增强学习中的分布策略评估问题，并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能，通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系，同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。

Mar, 2024

基于核的时间差分方法的最优策略评估

本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法，并使用经验过程理论技术导出了误差的上界，同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。

Sep, 2021

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Jun, 2024

深度强化学习的快速价值追踪

我们的研究利用卡尔曼滤波范式引入了一种称为 Langevinized Kalman Temporal-Difference (LKTD) 的新颖且可扩展的采样算法，用于深度强化学习。通过 LKTD 算法，我们有效地从深度神经网络参数的后验分布中抽样，而且我们证明了在温和条件下，LKTD 算法生成的后验样本收敛到一个稳定分布。这种收敛不仅使我们能够量化价值函数和模型参数相关的不确定性，而且在训练阶段中允许我们监控这些不确定性。LKTD 算法为更加强健和适应性的强化学习方法打开了道路。

Mar, 2024