方差缩减时序差分学习的重新分析

ICLRJan, 2020

方差缩减时序差分学习的重新分析

Reanalysis of Variance Reduced Temporal Difference Learning

Tengyu Xu, Zhe Wang, Yi Zhou, Yingbin Liang

TL;DR本文介绍了 variance reduced TD（VRTD）算法及其在非渐进情况下演化的方向收敛性和方差减少性，证明了 VRTD 具有线性收敛速度，在 Markov 采样的条件下能够显著降低方差误差和偏差误差。

Abstract

Temporal difference (TD) learning is a popular algorithm for policy evaluation in reinforcement learning, but the vanilla TD can substantially suffer from the inherent optimization variance. A variance reduced TD (VRTD) algorithm was proposed by Korda and La (2015), which applies the v

temporal difference learning policy evaluation reinforcement learning variance reduction online learning

发现论文，激发创造

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Jun, 2024

随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

本文研究了马尔可夫噪声下的随机泛型不等式问题，并提出了用于强化学习中的随机策略评估问题的算法，包括改进的标准 TD 算法和快速 TD 算法等。

Nov, 2020

分布式时间差分的统计效率

本文研究分布增强学习中的分布策略评估问题，并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能，通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系，同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。

Mar, 2024

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

广义强化时间差分学习：偏差 - 方差分析

本文提出了一种广义的基于强化学习的离线评估算法，该算法可以控制一个重要性采样因子的衰减速度，并研究了其收敛和精度属性。

Sep, 2015

面向重尾奖励的可证明鲁棒时序差分学习

本文探讨了强化学习中，奖励分布呈现重尾分布时，采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题，论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡，对于一些 p（0<p<=1），都以期望和高的概率下 finie moment（1+p）的重尾收益实现样本复杂度，同时 Robust TD 学习具有相同的特征。

Jun, 2023

增量式截断最小二乘法

本文介绍了一种低秩 LSTD 算法，该算法能更好地平衡计算效率和采样效率，使过去的样本高效地实现对最少二乘法时间差分（LSTD）的采样复杂度，同时实现近似 LSTD 的样本复杂度。我们在模拟中给出了关于截断低秩逼近所得解的模拟界限，这表明一个偏差 - 方差折衷需要依赖秩的选择。我们证明了该算法在基准任务和高维能量分配领域的策略评估中有效地平衡了计算复杂性和采样效率。

Nov, 2015

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021

时序差分学习是否最优？一种实例相关的分析

通过引入变量缩减形式的随机逼近，本研究提出了一种实例依赖的策略评估算法，并在非渐近条件下实现了优化性能，同时在理论上证明了其优越性。

Mar, 2020