TD 学习与线性函数逼近的简单有限时间分析

Mar, 2024

TD 学习与线性函数逼近的简单有限时间分析

A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation

Aritra Mitra

TL;DRTD 学习在马尔可夫采样下，通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法，我们证明了在常数步长和标准选择下，TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明，并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。

Abstract

We study the finite-time convergence of td learning with linear function approximation under markovian sampling. Existing proofs for this

td learning linear function approximation markovian sampling convergence stochastic approximation algorithms

发现论文，激发创造

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

线性随机逼近和 TD 学习的有限时间误差界

考虑由 Markovian 噪声驱动的线性随机逼近算法的动态特性，通过考虑适当选择的 Lyapunov 函数的漂移，获得常数步长算法的有限时间误差的二次矩的有限时间界限。我们还对逼近误差 2 范数的平方的矩进行了全面的处理。

Feb, 2019

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

TD (0) 函数逼近的有限样本分析

本文是首篇对 TD (0) 算法在线性情况下基于函数逼近进行有限采样分析的研究，并且通过利用 TD (0) 的强大属性，提供了期望和高概率的收敛速率，并使用最近开发的随机逼近技术采用了不同的方法来获得这两种收敛速率。

Apr, 2017

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

基于线性函数逼近的时序差分学习的有限时间分析：尾平均和正则化

本研究研究了结合尾平均的时序差分（TD）学习算法的有限时间行为。研究发现，尾平均的 TD 在不需要信息的情况下，可以在期望和高概率下以最优的 $O (1/t)$ 速率收敛，我们提出和分析了一个增加了正则化的 TD 变量，结论表明正则化的 TD 对于具有病态特征的问题是有用的。

Oct, 2022

关于函数逼近的 TD (0)：集中界限和具有指数收敛的居中变量

本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时，也指出了除非我们对政策的马尔科夫链的稳态分布（部分）具有知识，否则步长反比于迭代次数不能保证最优收敛率。此外，我们为迭代平均的 TD (0) 变体提供了界限，同时消除了步长的依赖性，并表现出最优的收敛速度。此外，我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型，并证明它在期望下表现出指数级的收敛速度。最后，我们在两个人工实验中展示了这些界限的有用性。

Nov, 2014

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023