分解马尔可夫决策过程中近最优强化学习

Mar, 2014

分解马尔可夫决策过程中近最优强化学习

Near-optimal Regret Bounds for Reinforcement Learning in Factored MDPs

Ian Osband, Benjamin Van Roy

TL;DR通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Abstract

Any learning algorithm over markov decision processes (MDPs) will have worst-case regret $\Omega(\sqrt{SAT})$ where $T$ is the elapsed time and $S$ and $A$ are the cardinalities of the state and action spaces. In many settings of interest $S$ and $A$ may be so huge that it is impossibl

发现论文，激发创造

强化学习的后验采样：最坏情况的遗憾界

提出了一种基于后验采样的算法，应用于具有有限但未知直径的Markov决策过程中，证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性，可能具有独立研究价值，并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。

May, 2017

MDP中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了KL-UCRL算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

通过马尔可夫链浓度推导强化学习的遗憾界

针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程，在简单的乐观算法下，$T$ 步后 $\tilde{O}(\sqrt{t_{mix}SAT})$ 的遗憾度可推导出，这些界限是所有给定参数的最优依赖关系下，普遍的非情节性问题的首个遗憾度界限；唯一可以改善它们的方法是使用可选的混合时间参数。

Aug, 2018

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在MDP总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019

通过评估最优偏置函数实现强化学习的遗憾最小化

基于“面对不确定性的乐观原则”的算法，使用有限状态-动作空间的、用马尔可夫决策过程（MDP）建模的强化学习（RL）有效学习。通过评估最佳偏置函数$h^{*}$的状态对差异，该算法在已知$sp(h^{*})$的情况下实现MDP的遗憾界为$\tilde{O}(\sqrt{SAHT})$，这个结果超过了先前的最佳遗憾界$\tilde{O}(S\sqrt{AHT})$，并且匹配了遗憾下界。此外，对于有限直径$D$的MDP，我们证明了$ ilde{O}(\sqrt{SADT})$接近于最佳遗憾上界。

Jun, 2019

面向因式化马尔可夫决策过程的极小极大最优强化学习

本文研究了在FMDP中使用最小最大算法的强化学习，提出了两种基于模型的算法，并通过结构相关的阈值证明了其保证。

Jun, 2020

提高分解平均奖励 MDP 的探索能力

研究了在未知的分解式马尔可夫决策过程（FMDP）中，以平均奖励标准为基础的遗憾最小化任务。提出了一种新的遗憾最小化策略DBN-UCRL，该策略依赖于对转换函数的单独元素定义的Bernstein类型置信区间，并在标准环境下进行了数值实验。

Sep, 2020

有保证的受限强化学习中高效的探索：后验抽样即可

基于后验抽样的算法在约束马尔可夫决策过程（CMDP）的无限时间不折扣设置中提供了近最优的遗憾界限，同时在实证上比现有算法更具优势。

Sep, 2023

基于后验采样的时态POMDP学习算法的遗憾分析

本文研究了具有未知转移和观测模型的POMDPs中的情节性学习问题，并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。

Oct, 2023

平均奖励约束下有效的强化学习探索：通过后验抽样实现接近最优的遗憾

基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限，并在实践中相比现有算法具有优势。

May, 2024