Q 学习作为单调方案

May, 2024

Q-learning as a monotone scheme

PDF

Lingyi Yang

TL;DR应用线性二次示例来研究强化学习方法中存在的稳定性和收敛性问题，并在函数逼近对单调性属性的影响方面解释确切 Q-learning 的收敛准则。

Abstract

stability issues with reinforcement learning methods persist. To better understand some of these stability and →

reinforcement learning stability convergence linear quadratic example function approximation

发现论文，激发创造

平滑 Q-learning 算法的统一 ODE 分析

通过异步强化学习和平滑版本的简化框架，提出了更加广泛和统一的 Q-learning 及其平滑变体的收敛性分析方法。

Apr, 2024

线性 - 二次均场强化学习：策略梯度方法的收敛性

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制：收敛和稳定性

本文针对离散时间线性系统和二次标准的随机参数情况，提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下，学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。

Nov, 2020

Q-learning 设计与乐观性的稳定性

该论文介绍了 Q-learning 在强化学习工具中的重要性，提供了随机逼近和 Q-learning 的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题，以及设计了一种近似牛顿 - 拉普森流动的算法。

Jul, 2023

多智能体 Q 学习动态的渐近收敛与性能

本论文研究了探索 - 利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

随机环境中的凸 Q 学习：扩展版

引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括：对该凸松弛性质的属性进行了鉴定，提供了一种近似凸程序的直接模型无关方法，证明了所提出算法的收敛性，并介绍了计算速率。同时，该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。

Sep, 2023

深度 Q 学习算法瓶颈的诊断

本研究通过实验调查了 Q-learning 方法在深度强化学习中的潜在问题，并提出了基于神经网络结构的新型采样方法，在高维连续控制领域中获得了显着的改进。

Feb, 2019

强化学习中的稳定边缘现象研究

通过研究强化学习中的稳定性边界现象，发现优化动力学可以在不同的问题领域中发生转移，但深度强化学习的优化动力学在某些方面与监督学习不同。

Jul, 2023

随机博弈的高效 Q 学习

本文提出了新的高效 Q 学习动态应用于随机博弈，使智能体能够遵循阶段游戏中的对数线性学习动态，通过逐步迭代估计 Q 函数，实现高效平衡，并通过逐渐减小步长的方式使其收敛，同时还研究了 softmax 响应在此过程中产生的近似误差。

Feb, 2023