马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用

Jan, 2024

马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用

Rates of Convergence in the Central Limit Theorem for Markov Chains, with an Application to TD Learning

R. Srikant

TL;DR使用 Stein's 方法证明向量值鞅差的非渐近中心极限定理，并使用泊松方程将结果推广到马尔可夫链的函数领域。然后证明这些结果可应用于建立基于平均的时序差分（TD）学习的非渐近中心极限定理。

Abstract

We prove a non-asymptotic central limit theorem for vector-valued martingale differences using stein's method, and use poisson's equation

non-asymptotic central limit theorem vector-valued martingale differences stein's method poisson's equation temporal difference learning

发现论文，激发创造

通过鞅 CLT 的非渐近速率对随机梯度下降进行正常近似

本文提供了一类可微测试函数的 Polyak-Ruppert 平均随机梯度下降（SGD）收敛到正态随机向量的非渐近速率，其中一个关键的中间步骤是证明一个非渐近鞅中心极限定理。我们使用 Stein 方法和 Lindeberg 的论证以及非渐近分析与 [PJ92] 提出的平均 SGD 一起得到了多元鞅 CLT 的显式速率。我们的结果对于使用 SGD 计算参数估计的置信区间以及在非渐近意义下构建假设检验的 SGD 可能具有有趣的影响。

Apr, 2019

关于函数逼近的 TD (0)：集中界限和具有指数收敛的居中变量

本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时，也指出了除非我们对政策的马尔科夫链的稳态分布（部分）具有知识，否则步长反比于迭代次数不能保证最优收敛率。此外，我们为迭代平均的 TD (0) 变体提供了界限，同时消除了步长的依赖性，并表现出最优的收敛速度。此外，我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型，并证明它在期望下表现出指数级的收敛速度。最后，我们在两个人工实验中展示了这些界限的有用性。

Nov, 2014

具有马尔科夫噪声的双时间尺度随机逼近的中心极限定理：理论与应用

通过中心极限定理对双时间尺度随机逼近（TTSA）在受控马尔可夫噪声下进行了深入的渐近分析，揭示了受底层马尔可夫链影响的 TTSA 的耦合动态，从而扩展了其应用范围，并结合应用结果推断了使用马尔可夫样本的 GTD 算法的统计性质和渐近性能。

Jan, 2024

马尔可夫链中心极限定理

本文旨在描述通用状态空间马尔可夫链的泛函的中心极限定理的保证条件，重点关注漂移和混合条件及其含义，包括三个常见引用的中心极限定理和与混合过程的经典结果的关系。通过多个实例阐明了本著作的研究方法和成果。

Sep, 2004

通过马尔可夫链实现常数步长 SGD 的收敛和集中特性

本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题，通过马洛夫链的视角对其性质进行研究，证明了当梯度噪音分布满足一定条件时，该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布，同时证明了该极限分布具有次高斯或次指数分布的浓度性质；最后针对一些具体应用，推导出了高可信度界限。

Jun, 2023

顺序蒙特卡罗方法的中心极限定理及其在贝叶斯推断中的应用

本文建立了顺序蒙特卡罗方法的中心极限定理，它是一种通用的迭代算法，执行所需分布序列的蒙特卡罗估计。这个结果适用于在文献中考虑过的大多数顺序蒙特卡罗方法的一般框架，涵盖了对所需分布进行最小假设的情况，同时提供对给定粒子滤波器精度的方便测量。文章研究了在一些典型的贝叶斯应用中，这些渐近方差是否在时间上发散及其速率，以评估所考虑算法的长期可靠性。

Aug, 2005

线性双时间尺度随机逼近的收敛速率

本研究讨论了线性二时间尺度随机逼近方法的收敛速度，证明了它们的渐进协方差和建立了渐近正态性，通过本文的一般结果，证明了著名的 Polyak-Ruppert 平均技术在线性随机逼近中的最优性。

May, 2004

高维中心极限定理：通过鞅嵌入的定量界限

该研究介绍了一种在高维环境下获得中心极限定理（CLT）收敛速率的新方法。运用该方法，我们获得了在交通距离和熵中收敛的新界限，并特别改进了对于有界随机向量的二次 Wasserstein 运输距离收敛的已知最佳界限，推导了对于一般的对数凹随机向量的信息熵 CLT 的第一个非渐近收敛速度，给出了一个在对数凹性假设下的交通距离收敛的改进界限，在强对数凹性的假设下，两个指标的改进都得到了改善。我们的方法基于鞅嵌入，具体地，基于第一位作者构造的 Skorokhod 嵌入。

Jun, 2018

带控制的马尔科夫噪声和离线时差学习的两时间尺度随机逼近

本研究首次提出两个时间尺度随机逼近的渐近收敛性分析，其中包括非加性控制的马尔可夫噪声。通过与限制微分协同关系进行比较，分析了控制马尔可夫过程的基于随机逼近的渐近行为，最终提供了具有线性功能逼近的离策略收敛问题的解决方案。

Mar, 2015

连续时间随机梯度下降：中心极限定理

本文提出了随机梯度下降在连续时间上的应用，论述了该算法在强凸及非凸目标函数下的收敛速度，探讨了在随机分析和统计学习领域的数学应用。

Oct, 2017