Q 学习作为单调方案
本文针对离散时间线性系统和二次标准的随机参数情况,提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下,学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。
Nov, 2020
该论文介绍了 Q-learning 在强化学习工具中的重要性,提供了随机逼近和 Q-learning 的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题,以及设计了一种近似牛顿 - 拉普森流动的算法。
Jul, 2023
本论文研究了探索 - 利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法,本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点,并为该算法衍生的策略提供性能保证。
Jan, 2024
引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括:对该凸松弛性质的属性进行了鉴定,提供了一种近似凸程序的直接模型无关方法,证明了所提出算法的收敛性,并介绍了计算速率。同时,该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。
Sep, 2023
本研究通过实验调查了 Q-learning 方法在深度强化学习中的潜在问题,并提出了基于神经网络结构的新型采样方法,在高维连续控制领域中获得了显着的改进。
Feb, 2019
本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
Feb, 2023