使用对数遗憾值的 $Q$- 学习

Jun, 2020

$Q$-learning with Logarithmic Regret

Kunhe Yang, Lin F. Yang, Simon S. Du

TL;DR该论文展示了第一个非渐近结果，证明了如果最优 $Q$- 函数存在严格正的次优性差，则无模型算法可以实现每段落的表格强化学习的对数累积后悔，并且我们将我们的分析扩展到折扣设置，并获得类似的对数累积后悔界限。

Abstract

This paper presents the first non-asymptotic result showing that a model-free algorithm can achieve a logarithmic cumulative regret for episodic tabular reinforcement learning if there exists a strictly positive sub-optimality gap in the optimal $Q$-function. We prove that the optimist

non-asymptotic model-free algorithm episodic tabular reinforcement learning optimistic q-learning cumulative regret bound

发现论文，激发创造

有限时间跨度下连续时间线性二次强化学习的对数损失

研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Jun, 2020

基于表格型 MDPs 的非渐进性依赖间隔遗憾上界

本文的关键是通过建立一种新的 “裁剪” 遗憾分解技术，证明了乐观算法能够在有限的步数内以对数遗憾实现相应动态规划问题的最优解，并适用于广泛的最优算法。

May, 2019

线性函数逼近强化学习的对数遗憾

该研究探讨了使用线性函数逼近的强化学习，提出了新的线性 MDP 假设，并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。

Nov, 2020

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

强化学习的极小后悔界

本文研究了有限时间 MDPs 中探索的最优性问题，提出了一种基于值迭代的乐观算法，其探索奖励基于下一个状态的经验值的变化量，通过使用集中不等式提高算法的可伸缩性，取得了优于先前最佳算法的研究成果，可以实现与已知理论下限相匹配的后悔度。

Mar, 2017

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

具有对数最坏情况遗憾的量子强化学习的可证明高效探索

我们提出了一种新的量子强化学习算法，并证明了对于 tabular MDPs and linear mixture MDPs，该算法的最坏情况后悔度是多项式级别的，是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。

Feb, 2023

具有平均回报目标的随机博弈中的分散式无模型强化学习

本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法，称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning)，该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比，该算法具有低计算复杂度和低内存空间要求。

Jan, 2023