最紧密的有限时间界约束下的两时间尺度强化学习故事

Nov, 2019

最紧密的有限时间界约束下的两时间尺度强化学习故事

A Tale of Two-Timescale Reinforcement Learning with the Tightest Finite-Time Bound

Gal Dalal, Balazs Szorenyi, Gugan Thoppe

TL;DR以两时间步随机逼近框架为基础的渐变时序差异方法（GTD (0)、GTD2 和 TDC）的收敛速率界限及其证明。

Abstract

policy evaluation in reinforcement learning is often conducted using two-timescale stochastic approximation, which results in various grad

policy evaluation reinforcement learning convergence rates gradient temporal difference methods two-timescale stochastic approximation

发现论文，激发创造

二时间尺度强化学习的有限时间性能界和自适应学习率选择

本文研究两种时间尺度线性随机逼近算法，并使用一个基于奇异扰动理论的李雅普诺夫函数来得出有限时间性能界限，最终设计出一种自适应学习速率方案，以显著提高收敛速度和表现。

Jul, 2019

两时间尺度值基强化学习算法的样本复杂度界限

本文研究了基于价值的强化学习算法中，线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度，并给出了最优的样本复杂度和最优化误差控制速率。

Nov, 2020

两个时间尺度的离线 TD 学习：对马尔可夫样本的非渐进分析

本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析，并在此基础上提出了具有分块减小的步长的 TDC 算法，实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度，并在减小步长的情况下仍保持与 TDC 相当的精度。

Sep, 2019

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

快速二次时间尺度随机梯度法及其在强化学习中的应用

提出了一种用于解决两时间尺度优化问题的新方法，通过利用平均化步骤改善算子的估计，消除了主要变量之间的直接耦合，从而大大加快了收敛速度，并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随机逼近算法的复杂性，该算法在强化学习中表现出色，超越或与现有的最先进方法相匹配，并通过强化学习中的数值模拟验证了理论结果。

May, 2024

马尔可夫环境下有限样本分析 GTD 策略评估算法

本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析，证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关，说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。

Sep, 2018

一种仅使用一个步长的新渐变 TD 算法：使用 $L$-$λ$ 平滑性进行收敛速率分析

本文介绍了一种名为 Impression GTD 的全新 GTD 算法，通过最小化期望 TD 更新的范数目标实现单时间尺度，并证明该算法的收敛速度至少为 O (1/t)，甚至更快。同时，与现有的 GTD 算法相比，该算法在在线学习和离线学习问题中表现更快，具有比较稳定的步长范围。

Jul, 2023

Proximal Gradient TD 算法的有限样本分析

本文旨在分析梯度时序差分学习（GTD）算法族的收敛速率，将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法，并进行鞍点误差分析以获得其性能的有限样本界限，提出了两种改进的算法，即投影 GTD2 和 GTD2-MP，理论分析结果表明，GTD 算法族在脱离政策学习场景中与现有的 LSTD 方法相当。

Jun, 2020

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020