随机信息结构和非马尔可夫环境下的Q学习

Oct, 2023

Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments

Ali Devran Kara, Serdar Yuksel

TL;DR我们提出了一个收敛定理，研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代，特别是Q学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件，并将此定理的应用扩展到各种随机控制问题中。

Abstract

As a primary contribution, we present a convergence theorem for stochastic iterations, and in particular, q-learning iterates, under a gen

发现论文，激发创造

研究了一种在Markovian噪声下的非线性随机逼近算法，证明了其具有不同学习速率的有限样本收敛界限，并证明了其适用于Q-learning算法。

May, 2019

本论文研究了探索-利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

本文提出了新的高效Q学习动态应用于随机博弈，使智能体能够遵循阶段游戏中的对数线性学习动态，通过逐步迭代估计Q函数，实现高效平衡，并通过逐渐减小步长的方式使其收敛，同时还研究了 softmax 响应在此过程中产生的近似误差。

Feb, 2023

该论文研究了强化学习算法中的一种非马尔可夫过程，提出了一种基于近似信息状态(AIS)的改进方法，展示了其比基线更好的表现和与AIS表示相关的性能变化。

Jun, 2023

该论文介绍了Q-learning在强化学习工具中的重要性，提供了随机逼近和Q-learning的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了Q-learning中线性函数逼近的稳定性问题，以及设计了一种近似牛顿-拉普森流动的算法。

Jul, 2023

引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括：对该凸松弛性质的属性进行了鉴定，提供了一种近似凸程序的直接模型无关方法，证明了所提出算法的收敛性，并介绍了计算速率。同时，该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。

Sep, 2023

扩展Borkar-Meyn定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法，分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。

Jan, 2024

我们提出了PASQL（周期性基于智能体状态的Q学习），它是一种基于智能体状态的Q学习的变体，可以学习周期性策略，并展示了周期性策略相对于固定策略的优势。

Jul, 2024

本文研究了在平均奖励标准下的马尔可夫决策过程中的强化学习算法，特别关注基于相对价值迭代的Q学习算法，这些算法适用于大状态空间问题。研究延伸了之前的几乎确定收敛性分析，使其适用于更广泛的弱通信MDP，为理论和应用提供了重要的 insights，并证明了算法收敛的集合具有丰富的结构。

Aug, 2024

本文研究了异步随机逼近算法及其在半马克ov决策过程中的应用，重点在于平均奖励标准。通过扩展Borkar和Meyn的稳定性证明方法，我们为异步SA算法提供了更广泛的收敛保证，并发展了RVI Q学习算法的收敛性，这将扩展目前的算法框架，对强化学习领域产生重要影响。

Sep, 2024