LSTD ($λ$) 的收敛速率和误差界

May, 2014

Rate of Convergence and Error Bounds for LSTD($λ$)

Manel Tagorti, Bruno Scherrer

TL;DR本文考虑 LSTD (λ) 算法，推导出了任意 λ 及 β-mixing 条件下该算法收敛速率的高概率估计及误差的高概率界，探究了 λ 值选择对线性空间质量和样本数的影响。

Abstract

We consider lstd($\lambda$), the least-squares temporal-difference algorithm with eligibility traces algorithm proposed by Boyan (2002). It computes a linear →

lstd temporal-difference approximation markov decision process convergence rate

发现论文，激发创造

基于随机投影和资格追踪的 LSTD 有限样本分析

该研究提出了一种利用随机投影和资格痕迹策略处理高维特征空间下的政策评估问题的新算法，经过理论分析，证明其比之前的算法表现更好。

May, 2018

增量式截断最小二乘法

本文介绍了一种低秩 LSTD 算法，该算法能更好地平衡计算效率和采样效率，使过去的样本高效地实现对最少二乘法时间差分（LSTD）的采样复杂度，同时实现近似 LSTD 的样本复杂度。我们在模拟中给出了关于截断低秩逼近所得解的模拟界限，这表明一个偏差 - 方差折衷需要依赖秩的选择。我们证明了该算法在基准任务和高维能量分配领域的策略评估中有效地平衡了计算复杂性和采样效率。

Nov, 2015

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015

基于核的时间差分方法的最优策略评估

本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法，并使用经验过程理论技术导出了误差的上界，同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。

Sep, 2021

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

关于函数逼近的 TD (0)：集中界限和具有指数收敛的居中变量

本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时，也指出了除非我们对政策的马尔科夫链的稳态分布（部分）具有知识，否则步长反比于迭代次数不能保证最优收敛率。此外，我们为迭代平均的 TD (0) 变体提供了界限，同时消除了步长的依赖性，并表现出最优的收敛速度。此外，我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型，并证明它在期望下表现出指数级的收敛速度。最后，我们在两个人工实验中展示了这些界限的有用性。

Nov, 2014

一种基于 Dantzig Selector 的时序差分学习方法

本文介绍了一种新的算法，通过将 LSTD 与 Dantzig Selector 结合，解决了 L1 正则化与 LSTD 整合的困难问题，该算法适用于高维问题。

Jun, 2012

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023