Q 学习是否可以被有效证明？

ICMLJul, 2018

Is Q-learning Provably Efficient?

Chi Jin, Zeyuan Allen-Zhu, Sebastien Bubeck, Michael I. Jordan

TL;DR该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Abstract

model-free reinforcement learning (RL) algorithms, such as q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more fl

model-free reinforcement learning q-learning sample efficiency regret ucb exploration

发现论文，激发创造

带有 UCB 探索的 Q-learning 对于无限时域 MDP 具有样本效率

本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题，实验结果表明算法的探索样本复杂度的上限为 O（SA/ε²(1-𝛾)⁷），此外该算法还可提高之前深度 Q 学习的表现。

Jan, 2019

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

参考优势分解下几乎最优无模型强化学习

使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题，证明了该算法得到了比以前更好的失望值，并且在并发强化学习中表现出了较低的本地切换成本。

Apr, 2020

针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法

提出了一种基于 EE-QL，结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法，实现了与最佳已知基于模型算法相似的学习速度。

Jun, 2020

度量空间中的高效无模型强化学习

本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法，利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法，无需使用黑盒规划预言机。

May, 2019

非平稳 RL 中的无模型方法：接近最优遗憾及在多智能体 RL 和库存控制中的应用

提出了 RestartQ-UCB 算法，它是第一个非定常强化学习的模型自由算法，并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。

Oct, 2020

在线基于模型的 Q 学习的有限时间误差分析与放松采样模型

通过理论分析和实证评估，本文探讨了当集成模型为基础的方法时，$Q$- 学习在样本复杂度方面相对其无模型对应物而言的样本效率的条件。

Feb, 2024

无模型的后验采样通过学习率随机化

介绍了一种名为随机化 Q 学习（RandQL）的新型基于后验抽样的模型无关算法，用于减小判断失误在分节马尔可夫决策过程（MDPs）中的影响，分析了它在标表和非标表度量空间设置下的性能，表明其乐观探索方法优于现有的方法。

Oct, 2023

无模型改进的零和马尔科夫博弈的高效样本算法

为了解决两个玩家零和马尔可夫博弈问题，在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法，我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度，进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。

Aug, 2023

无模型强化学习：从剪切伪懊恼到样本复杂度

本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策，该算法的成功概率为 (1-p)，且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3))，其中 S 是状态数，A 是行动数，γ 是折扣因子，ε 是一个近似阈值

Jun, 2020