关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

Feb, 2022

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

On a Variance-Reduction Correction for the Temporal-Difference Learning in the Stochastic Continuous Setting

Ziad Kobeissi, Francis Bach

TL;DR本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Abstract

We consider the problem of policy evaluation for continuous-time processes using the temporal-difference learning algorithm. More precisely, from the time discretization of a →

continuous-time processes temporal-difference learning td(0)stochastic differential equation model-based algorithm

发现论文，激发创造

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

关于函数逼近的 TD (0)：集中界限和具有指数收敛的居中变量

本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时，也指出了除非我们对政策的马尔科夫链的稳态分布（部分）具有知识，否则步长反比于迭代次数不能保证最优收敛率。此外，我们为迭代平均的 TD (0) 变体提供了界限，同时消除了步长的依赖性，并表现出最优的收敛速度。此外，我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型，并证明它在期望下表现出指数级的收敛速度。最后，我们在两个人工实验中展示了这些界限的有用性。

Nov, 2014

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

时序差分学习是否最优？一种实例相关的分析

通过引入变量缩减形式的随机逼近，本研究提出了一种实例依赖的策略评估算法，并在非渐近条件下实现了优化性能，同时在理论上证明了其优越性。

Mar, 2020

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Jun, 2024

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

方差缩减时序差分学习的重新分析

本文介绍了 variance reduced TD（VRTD）算法及其在非渐进情况下演化的方向收敛性和方差减少性，证明了 VRTD 具有线性收敛速度，在 Markov 采样的条件下能够显著降低方差误差和偏差误差。

Jan, 2020

几乎没有通信的分布式 TD (0)

本文提出了一种新的分布式时间差异学习方法，该方法采用 “一次性平均” 策略，在分布式过程结束时平均结果，证明了并行优化对于时间差异方法收敛时间的提升。

May, 2023