应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中

Jan, 2024

应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise

Shuze Liu, Shuhang Chen, Shangtong Zhang

TL;DR扩展 Borkar-Meyn 定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法，分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。

Abstract

stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a →

stochastic approximation stability borkar-meyn theorem reinforcement learning linear function approximation

发现论文，激发创造

线性随机逼近和 TD 学习的有限时间误差界

考虑由 Markovian 噪声驱动的线性随机逼近算法的动态特性，通过考虑适当选择的 Lyapunov 函数的漂移，获得常数步长算法的有限时间误差的二次矩的有限时间界限。我们还对逼近误差 2 范数的平方的矩进行了全面的处理。

Feb, 2019

随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

本文研究了马尔可夫噪声下的随机泛型不等式问题，并提出了用于强化学习中的随机策略评估问题的算法，包括改进的标准 TD 算法和快速 TD 算法等。

Nov, 2020

非线性随机逼近的有限样本分析及其在强化学习中的应用

研究了一种在 Markovian 噪声下的非线性随机逼近算法，证明了其具有不同学习速率的有限样本收敛界限，并证明了其适用于 Q-learning 算法。

May, 2019

带控制的马尔科夫噪声和离线时差学习的两时间尺度随机逼近

本研究首次提出两个时间尺度随机逼近的渐近收敛性分析，其中包括非加性控制的马尔可夫噪声。通过与限制微分协同关系进行比较，分析了控制马尔可夫过程的基于随机逼近的渐近行为，最终提供了具有线性功能逼近的离策略收敛问题的解决方案。

Mar, 2015

具有马尔可夫噪声的一阶方法：从加速到变分不等式

该论文提出了一种针对马尔可夫噪声的随机优化问题的优化方法，使用随机批处理方案和多层蒙特卡洛方法，在非凸和强凸情况下实现对梯度方法和变分不等式的统一理论分析。此外，该研究消除了以前关于马尔可夫噪声的限制假设，并提供了与优化问题的强凸情况相匹配的下界。

May, 2023

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017

随机微分方程的近似贝叶斯学习

使用高斯过程作为灵活的模型并使用高斯过程回归直接从稠密数据集中计算估计，开发出一种非参数方法来估计随机微分方程组中的漂移和扩散函数，并开发了一种近似的期望最大化算法来处理稀疏观察之间的未观察到的潜在动态。

Feb, 2017

带有马尔可夫数据的最小二乘回归：基本限制和算法

研究了最小二乘线性回归的问题，其中数据点依赖于并从马尔可夫链中采样。在不同的噪声设置下，建立了关于底层马尔可夫链混合时间 $\tau_{mix}$ 的尖锐信息理论极小值下界来解决此问题。我们发现，与独立数据的优化相比，具有马尔可夫数据的优化通常更加困难，一个只在大约 $ ilde {\Theta}(\tau_{mix})$ 个样本中工作的平凡算法 (SGD-DD) 是极小化最优的。此外，我们还研究了实践中出现的结构化数据集，例如高斯自回归动态，它们能否拥有更高效的优化方案。令人惊讶的是，即使在这个特定的自然环境下，具有一定步长的随机梯度下降法与常数并没有比 SGD-DD 算法更好。相反，我们提出了一种基于体验复盘的算法 —— 一种流行的强化学习技术 —— 它可以实现更好的误差率。我们的改进速率是第一个在有趣的马尔可夫链上优于 SGD-DD 的算法之一，也为在实践中支持使用经验回放提供了首个理论分析。

Jun, 2020

随机修正方程和随机梯度算法动力学 I：数学基础

该研究发展了随机修正方程 (SME) 框架的数学基础，以便于分析随机梯度算法的动态，其中后者由一类噪声参数很小的随机微分方程逼近。研究表明，这种逼近可以被理解为一种弱逼近，从而在随机目标的一般设置下，得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时，我们还通过显式计算表明，这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见，这在纯离散时间设置中可能很难获得。

Nov, 2018

关于无通信延迟的异步随机逼近稳定性的注记

本文研究没有通信延迟的异步随机逼近算法，主要贡献是通过扩展 Borkar 和 Meyn 的方法来进行这些算法的稳定性证明，我们还从稳定性结果中导出收敛性结果，并讨论其在重要的平均奖励强化学习问题中的应用。

Dec, 2023