时差学习的有限样本分析

Oct, 2023

Finite-Sample Analysis of the Temporal Difference Learning

Sergey Samsonov, Daniil Tiapkin, Alexey Naumov, Eric Moulines

TL;DR评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Abstract

In this paper we consider the problem of obtaining sharp bounds for the performance of temporal difference (TD) methods with linear functional approximation for policy evaluation in discounted markov decision processes<

temporal difference methods linear functional approximation policy evaluation discounted markov decision processes sample complexity bounds

发现论文，激发创造

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Jun, 2024

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

时序差分学习是否最优？一种实例相关的分析

通过引入变量缩减形式的随机逼近，本研究提出了一种实例依赖的策略评估算法，并在非渐近条件下实现了优化性能，同时在理论上证明了其优越性。

Mar, 2020

基于线性函数逼近的时序差分学习的有限时间分析：尾平均和正则化

本研究研究了结合尾平均的时序差分（TD）学习算法的有限时间行为。研究发现，尾平均的 TD 在不需要信息的情况下，可以在期望和高概率下以最优的 $O (1/t)$ 速率收敛，我们提出和分析了一个增加了正则化的 TD 变量，结论表明正则化的 TD 对于具有病态特征的问题是有用的。

Oct, 2022

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

TD 学习与线性函数逼近的简单有限时间分析

TD 学习在马尔可夫采样下，通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法，我们证明了在常数步长和标准选择下，TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明，并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。

Mar, 2024

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

线性随机逼近和 TD 学习的有限时间误差界

考虑由 Markovian 噪声驱动的线性随机逼近算法的动态特性，通过考虑适当选择的 Lyapunov 函数的漂移，获得常数步长算法的有限时间误差的二次矩的有限时间界限。我们还对逼近误差 2 范数的平方的矩进行了全面的处理。

Feb, 2019