Q-learning 设计与乐观性的稳定性
该研究介绍了一种新的递归算法分析框架,其中包括 Zap Q-learning,使用神经网络功能逼近,经多次实验证明该算法具有快速收敛性和适应多种功能逼近结构的特点。
Oct, 2019
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法,本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点,并为该算法衍生的策略提供性能保证。
Jan, 2024
我们提出了一种两时间尺度 Q 学习算法,采用函数逼近,以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下,建立了无限采样边界,从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。
Dec, 2023
引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括:对该凸松弛性质的属性进行了鉴定,提供了一种近似凸程序的直接模型无关方法,证明了所提出算法的收敛性,并介绍了计算速率。同时,该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。
Sep, 2023
本文针对离散时间线性系统和二次标准的随机参数情况,提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下,学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。
Nov, 2020
本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
Feb, 2023
该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法,并通过适当的假设证明,该算法的迭代是有界的,并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析,即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性,并在基准问题上进行了实验验证,如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程,并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。
Jul, 2024
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的 Q-learning 类型算法,该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的 Q 函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
我们提出了一个收敛定理,研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代,特别是 Q 学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件,并将此定理的应用扩展到各种随机控制问题中。
Oct, 2023
我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子,它扩展了传统的 Bellman 算子。通过探索该算子的属性,我们确定了投影的多 Bellman 算子变得收敛的条件,与 Bellman 算子相比,提供了改进的定点保证。为了利用这些认识,我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点,能够得到任意精度的解。最后,我们通过将其应用于众所周知的环境来验证我们的方法,展示了我们研究结果的有效性和适用性。
Sep, 2023