快速二次时间尺度随机梯度法及其在强化学习中的应用

May, 2024

快速二次时间尺度随机梯度法及其在强化学习中的应用

Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning

Sihan Zeng, Thinh T. Doan

TL;DR提出了一种用于解决两时间尺度优化问题的新方法，通过利用平均化步骤改善算子的估计，消除了主要变量之间的直接耦合，从而大大加快了收敛速度，并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性，该算法在强化学习中表现出色，超越或与现有的最先进方法相匹配，并通过强化学习中的数值模拟验证了理论结果。

Abstract

two-time-scale optimization is a framework introduced in Zeng et al. (2024) that abstracts a range of policy evaluation and policy optimization problems in reinforcement learning (RL). Akin to bi-level optimizati

two-time-scale optimization reinforcement learning convergence algorithm sample-based methods

发现论文，激发创造

双时间尺度双层优化框架：复杂性分析及其在演员 - 评论家算法中的应用

本文研究了用于双层优化的两时间尺度随机算法框架，并分析了算法的收敛性及应用于自然演员 - 评论家算法的情形。

Jul, 2020

最紧密的有限时间界约束下的两时间尺度强化学习故事

以两时间步随机逼近框架为基础的渐变时序差异方法（GTD (0)、GTD2 和 TDC）的收敛速率界限及其证明。

Nov, 2019

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020

两时间尺度值基强化学习算法的样本复杂度界限

本文研究了基于价值的强化学习算法中，线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度，并给出了最优的样本复杂度和最优化误差控制速率。

Nov, 2020

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度 Q 学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

二时间尺度强化学习的有限时间性能界和自适应学习率选择

本文研究两种时间尺度线性随机逼近算法，并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限，最终设计出一种自适应学习速率方案，以显著提高收敛速度和表现。

Jul, 2019

带控制的马尔科夫噪声和离线时差学习的两时间尺度随机逼近

本研究首次提出两个时间尺度随机逼近的渐近收敛性分析，其中包括非加性控制的马尔可夫噪声。通过与限制微分协同关系进行比较，分析了控制马尔可夫过程的基于随机逼近的渐近行为，最终提供了具有线性功能逼近的离策略收敛问题的解决方案。

Mar, 2015

具有马尔可夫噪声的双时间尺度线性随机逼近的紧限定时间界

用马尔可夫噪声对线性二时间尺度随机逼近算法进行了收敛性分析，得到了该算法各种步长选择下的收敛行为，应用结果到 TDC 算法得到了比之前工作更好的收敛性样本复杂度，该结果还适用于确定各种强化学习算法的收敛行为，如带有 Polyak 平均的 TD 学习，GTD 和 GTD2。

Dec, 2023

分散线性二次最优控制的双时标优化框架

该研究通过选择稀疏性提升函数，首次提出了一种分散的线性二次最优控制问题，并针对该问题构建了几个近似可分离的约束优化问题。通过两倍时间尺度算法和微分方程求解器，针对加权的ℓ₁稀疏性提升函数，引入了一种分段二次稀疏性提升函数，并通过相同的两倍时间尺度算法证明了加速收敛率。最后考虑了具有非凸不连续特性的 ℓ₀ 稀疏性提升函数优化问题，并通过逐次逐坐标凸优化问题的逼近方法进行了处理。

Jun, 2024

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021