异步随机逼近与平均奖励强化学习

Sep, 2024

异步随机逼近与平均奖励强化学习

Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning

Huizhen Yu, Yi Wan, Richard S. Sutton

TL;DR本文研究了异步随机逼近算法及其在半马克ov决策过程中的应用，重点在于平均奖励标准。通过扩展Borkar和Meyn的稳定性证明方法，我们为异步SA算法提供了更广泛的收敛保证，并发展了RVI Q学习算法的收敛性，这将扩展目前的算法框架，对强化学习领域产生重要影响。

Abstract

This paper studies asynchronous Stochastic Approximation (SA) algorithms and their application to Reinforcement Learning in Semi-Markov Decision

发现论文，激发创造

异步随机逼近与Q学习的有限时间分析

研究了一种异步随机逼近算法，并证明了在单轨迹上其有限时间收敛速率的上限，具体的将其应用到异步Q-learning中，得到了和同步Q-learning相同水平、优于先前已知的异步Q-learning的速率上限。

Feb, 2020

随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

本文研究了马尔可夫噪声下的随机泛型不等式问题，并提出了用于强化学习中的随机策略评估问题的算法，包括改进的标准TD算法和快速TD算法等。

Nov, 2020

异步Q-Learning中悲观主义的功效

本文研究异步Q-learning的形式，将随机近似策略应用于马尔可夫数据样本，提出一种算法框架，将悲观主义原则纳入异步Q-learning中，基于合适的下置信界来惩罚访问不频繁的状态-动作对，从而提高了样本效率和适应性。

Mar, 2022

Q-learning设计与乐观性的稳定性

该论文介绍了Q-learning在强化学习工具中的重要性，提供了随机逼近和Q-learning的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了Q-learning中线性函数逼近的稳定性问题，以及设计了一种近似牛顿-拉普森流动的算法。

Jul, 2023

异步分散式 Q-Learning: 持久性的两时间尺度分析

这篇研究论文探讨了多智能体强化学习中的非静态挑战，介绍了一种异步变种的分散式 Q 学习算法，并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境，并在不强加协调假设的情况下驯服了非静态挑战。

Aug, 2023

随机信息结构和非马尔可夫环境下的Q学习

我们提出了一个收敛定理，研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代，特别是Q学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件，并将此定理的应用扩展到各种随机控制问题中。

Oct, 2023

关于无通信延迟的异步随机逼近稳定性的注记

本文研究没有通信延迟的异步随机逼近算法，主要贡献是通过扩展Borkar和Meyn的方法来进行这些算法的稳定性证明，我们还从稳定性结果中导出收敛性结果，并讨论其在重要的平均奖励强化学习问题中的应用。

Dec, 2023

应用ODE方法的随机逼近和强化学习在马尔可夫噪音中

扩展Borkar-Meyn定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法，分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。

Jan, 2024

具有延迟更新的随机逼近：马尔科夫采样下的有限时间收敛速率

基于大规模和多智能体强化学习的应用，我们研究了在马尔可夫采样下具有延迟更新的随机逼近（SA）方案的非渐近性能。我们首先表明，在时间变化的有界延迟下，延迟的SA更新规则保证了“最后迭代”指数级快速收敛到SA操作符固定点周围的球体。与传统的延迟SA规则相比，我们的研究减缓了最大延迟对收敛速率的影响，并且不需要关于延迟序列的先验知识来进行步长调整。我们的理论发现揭示了延迟对一类算法的有限时间效果，包括TD学习、Q学习和马尔可夫采样下的随机梯度下降。

Feb, 2024

在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性

本文研究了在平均奖励标准下的马尔可夫决策过程中的强化学习算法，特别关注基于相对价值迭代的Q学习算法，这些算法适用于大状态空间问题。研究延伸了之前的几乎确定收敛性分析，使其适用于更广泛的弱通信MDP，为理论和应用提供了重要的 insights，并证明了算法收敛的集合具有丰富的结构。

Aug, 2024