研究了一种异步随机逼近算法,并证明了在单轨迹上其有限时间收敛速率的上限,具体的将其应用到异步Q-learning中,得到了和同步Q-learning相同水平、优于先前已知的异步Q-learning的速率上限。
Feb, 2020
本文研究了马尔可夫噪声下的随机泛型不等式问题,并提出了用于强化学习中的随机策略评估问题的算法,包括改进的标准TD算法和快速TD算法等。
Nov, 2020
本文研究异步Q-learning的形式,将随机近似策略应用于马尔可夫数据样本,提出一种算法框架,将悲观主义原则纳入异步Q-learning中,基于合适的下置信界来惩罚访问不频繁的状态-动作对,从而提高了样本效率和适应性。
Mar, 2022
该论文介绍了Q-learning在强化学习工具中的重要性,提供了随机逼近和Q-learning的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了Q-learning中线性函数逼近的稳定性问题,以及设计了一种近似牛顿-拉普森流动的算法。
Jul, 2023
这篇研究论文探讨了多智能体强化学习中的非静态挑战,介绍了一种异步变种的分散式 Q 学习算法,并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境,并在不强加协调假设的情况下驯服了非静态挑战。
Aug, 2023
我们提出了一个收敛定理,研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代,特别是Q学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件,并将此定理的应用扩展到各种随机控制问题中。
Oct, 2023
本文研究没有通信延迟的异步随机逼近算法,主要贡献是通过扩展Borkar和Meyn的方法来进行这些算法的稳定性证明,我们还从稳定性结果中导出收敛性结果,并讨论其在重要的平均奖励强化学习问题中的应用。
Dec, 2023
扩展Borkar-Meyn定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法,分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。
Jan, 2024
基于大规模和多智能体强化学习的应用,我们研究了在马尔可夫采样下具有延迟更新的随机逼近(SA)方案的非渐近性能。我们首先表明,在时间变化的有界延迟下,延迟的SA更新规则保证了“最后迭代”指数级快速收敛到SA操作符固定点周围的球体。与传统的延迟SA规则相比,我们的研究减缓了最大延迟对收敛速率的影响,并且不需要关于延迟序列的先验知识来进行步长调整。我们的理论发现揭示了延迟对一类算法的有限时间效果,包括TD学习、Q学习和马尔可夫采样下的随机梯度下降。
Feb, 2024
本文研究了在平均奖励标准下的马尔可夫决策过程中的强化学习算法,特别关注基于相对价值迭代的Q学习算法,这些算法适用于大状态空间问题。研究延伸了之前的几乎确定收敛性分析,使其适用于更广泛的弱通信MDP,为理论和应用提供了重要的 insights,并证明了算法收敛的集合具有丰富的结构。
Aug, 2024