超越价值函数差距：改进的基于实例的遗憾界限用于情节马尔可夫决策过程强化学习

Jul, 2021

超越价值函数差距：改进的基于实例的遗憾界限用于情节马尔可夫决策过程强化学习

Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds for Episodic Reinforcement Learning

Christoph Dann, Teodor V. Marinov, Mehryar Mohri, Julian Zimmert

TL;DR为有限的Merkov决策过程中的强化学习提供了更好的基于间隙的遗憾度量方法。

Abstract

We provide improved gap-dependent regret bounds for reinforcement learning in finite episodic markov decision processes. Compared to prior

发现论文，激发创造

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

强化学习中遗憾下界的研究

本文澄清了强化学习的遗憾下限，提出了一个对于REGAL论文中的定理6的推测，并提出了一个比Bartlett和Tewari 2009所提出的更严格的下限。

Aug, 2016

MDP中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了KL-UCRL算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

通过马尔可夫链浓度推导强化学习的遗憾界

针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程，在简单的乐观算法下，$T$ 步后 $\tilde{O}(\sqrt{t_{mix}SAT})$ 的遗憾度可推导出，这些界限是所有给定参数的最优依赖关系下，普遍的非情节性问题的首个遗憾度界限；唯一可以改善它们的方法是使用可选的混合时间参数。

Aug, 2018

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

基于表格型MDPs的非渐进性依赖间隔遗憾上界

本文的关键是通过建立一种新的“裁剪”遗憾分解技术，证明了乐观算法能够在有限的步数内以对数遗憾实现相应动态规划问题的最优解，并适用于广泛的最优算法。

May, 2019

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在MDP总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019

非平稳RL中的无模型方法：接近最优遗憾及在多智能体RL和库存控制中的应用

提出了RestartQ-UCB算法，它是第一个非定常强化学习的模型自由算法，并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。

Oct, 2020

有限 MDP 中的情节式强化学习：Minimax下界再思考

本文提出了基于问题的独立的新样本复杂度和后悔下限，重点放在了非固定转移核情况下的情况，我们提出了新的样本下限并证明了我们的发现。

Oct, 2020

平均奖励和分段强化学习的乐观Q学习

我们提出了一种乐观的Q学习算法，用于在额外假设下的平均奖励强化学习中实现遗憾最小化，该额外假设是对底层MDP的所有策略来说，访问某些频繁状态s0的预期时间是有限的并且上界为H。

Jul, 2024