无折扣连续强化学习的在线遗憾界

Feb, 2013

无折扣连续强化学习的在线遗憾界

Online Regret Bounds for Undiscounted Continuous Reinforcement Learning

Ronald Ortner, Daniil Ryabko

TL;DR该研究针对连续状态空间中的无折扣强化学习问题，提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法，在 rewards 和 transition probabilities 保持 Holder 连续性的情况下，给出了子线性遗憾界。

Abstract

We derive sublinear regret bounds for undiscounted reinforcement learning in continuous state space. The proposed algorithm combines state

reinforcement learning continuous state space regret bounds upper confidence bounds optimism

发现论文，激发创造

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在 MDP 总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

有限时间跨度下连续时间线性二次强化学习的对数损失

研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Jun, 2020

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

一种连续时间的在线优化方法

研究一种基于连续时间的在线优化策略族，证明其能够达到无遗憾学习。从传统的离散时间角度来看，这种方法可导出大量离散时间算法（包括一些经典遗憾分析算法）的无遗憾性质，并统一了许多经典的遗憾上界，得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。

Jan, 2014

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

强化学习中遗憾下界的研究

本文澄清了强化学习的遗憾下限，提出了一个对于 REGAL 论文中的定理 6 的推测，并提出了一个比 Bartlett 和 Tewari 2009 所提出的更严格的下限。

Aug, 2016

强化学习与入场控制的懊悔界限

任何强化学习算法的期望遗憾在无折扣回报情况下下界为 $\Omega\left (\sqrt {DXAT}\right)$，其中 $D$ 表示马尔科夫决策过程的直径，$X$ 表示状态空间的大小，$A$ 表示动作空间的大小，$T$ 表示时间步数。然而，这个下界是一般性的，考虑到问题结构的一些具体知识可以获得更小的遗憾。在本文中，我们考虑了一个具有 $m$ 个作业类和类依赖奖励和持有成本的 $M/M/c/S$ 队列的入场控制问题。排队系统的直径通常是缓冲区大小 $S$ 的指数级，这使得先前的下界在实际使用中变得困难。我们提出了一种受 UCRL2 启发的算法，并利用问题结构来上界有限服务器情况下的期望总遗憾为 $O (S\log T + \sqrt {mT \log T})$。在无限服务器情况下，我们证明了遗憾对 $S$ 的依赖性消失。

Jun, 2024

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018