本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题,实验结果表明算法的探索样本复杂度的上限为 O(SA/ε²(1-𝛾)⁷),此外该算法还可提高之前深度 Q 学习的表现。
Jan, 2019
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为 $ O (SAH)$,较以前的算法提高了 $S^5A^3$ 倍的效率。
Oct, 2021
使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题,证明了该算法得到了比以前更好的失望值,并且在并发强化学习中表现出了较低的本地切换成本。
Apr, 2020
提出了一种基于 EE-QL,结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法,实现了与最佳已知基于模型算法相似的学习速度。
Jun, 2020
本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法,利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法,无需使用黑盒规划预言机。
May, 2019
提出了 RestartQ-UCB 算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
Oct, 2020
通过理论分析和实证评估,本文探讨了当集成模型为基础的方法时,$Q$- 学习在样本复杂度方面相对其无模型对应物而言的样本效率的条件。
Feb, 2024
介绍了一种名为随机化 Q 学习(RandQL)的新型基于后验抽样的模型无关算法,用于减小判断失误在分节马尔可夫决策过程(MDPs)中的影响,分析了它在标表和非标表度量空间设置下的性能,表明其乐观探索方法优于现有的方法。
Oct, 2023
为了解决两个玩家零和马尔可夫博弈问题,在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法,我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度,进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。
Aug, 2023
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值