基于模型的强化学习和逃避维度

Jun, 2014

Model-based Reinforcement Learning and the Eluder Dimension

Ian Osband, Benjamin Van Roy

TL;DR本文研究学习优化未知马尔可夫决策过程问题，并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界，并提出了一种简单而计算高效的后验采样算法（PSRL）来满足这些界。

Abstract

We consider the problem of learning to optimize an unknown Markov decision process (MDP). We show that, if the MDP can be parameterized within some known function class, we can obtain regret bounds that scale with the d

markov decision process regret bounds reinforcement learning dimensionality posterior sampling

发现论文，激发创造

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

Bellman Eluder 维度：强化学习新丰富问题类别和高样本效率算法

本篇研究提出了一种新的复杂度测量方法 - Bellman Eluder (BE) 维度，以此来解决强化学习中如何提高样本效率的问题，并且设计了两种算法，GOLF 与 OLIVE，来最优地学习 BE 维度问题的策略，并推导出相关的后悔和样本复杂度结果。

Feb, 2021

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022

在约束条件下的马尔可夫决策过程学习

本文研究如何在满足成本平均值约束条件下，通过设计基于模型的强化学习算法，从而最大化累积奖励，同时确保每个成本值的平均值被绑定在特定的上界之内。此外，我们提出了一种衡量强化学习算法表现的方法，即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异，并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O（T ^ {2/3}）.

Feb, 2020

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

可识别 MDP 赌博结构的问题相关性强化学习界限

本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程，并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。

Nov, 2019