结构化强化学习的探索

Jun, 2018

Exploration in Structured Reinforcement Learning

Jungseul Ok, Alexandre Proutiere, Damianos Tranos

TL;DR研究了基于有限状态和行动空间的强化学习问题，探讨了如何最小化次优（状态、行动）对的探索率。得出特定于问题的遗憾下限，并提出一种新的学习算法 DEL （Directed Exploration Learning），让算法的性能达到遗憾下限，且对于 Lipschitz 连续性的 MDP，简化版 DEL 算法仍能高效利用其结构。

Abstract

We address reinforcement learning problems with finite state and action spaces where the underlying mdp has some known structure that could be potentially exploited to minimize the →

reinforcement learning mdp regret lower bounds lipschitz continuous exploration rates

发现论文，激发创造

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

光滑 MDPs 中的无悔强化学习

为了解决在连续状态和 / 或动作空间中得到强化学习（RL）无后悔保证仍然是该领域的主要挑战之一，本论文引入了一种新的结构性假设，即 $ u-$ 平滑性，它概括了迄今已提出的大多数设置（如线性 MDPs 和 Lipschitz MDPs），我们提出了两种算法，在 $ u-$ 平滑 MDPs 中对后悔进行最小化，这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上，第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性，但计算效率低，而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别，但适用于较小的问题类别，经分析它们的后悔性能，我们将结果与 RL 理论的最新成果进行了比较，表明我们的算法达到了最佳保证。

Feb, 2024

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

潜在 MDPs 的强化学习：遗憾保证和下界

在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。

Feb, 2021

线性 MDPs 中的强化学习：常数遗憾和表示选择

研究在具有线性结构的有限时间马尔可夫决策过程（MDPs）中，状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色，提出了普遍跨越最优特征（UNISOFT）的概念，证明当给定的表示满足 UNISOFT 条件时，提出的算法达到恒定的遗憾。

Oct, 2021

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

可识别 MDP 赌博结构的问题相关性强化学习界限

本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程，并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。

Nov, 2019

强化学习的极小后悔界

本文研究了有限时间 MDPs 中探索的最优性问题，提出了一种基于值迭代的乐观算法，其探索奖励基于下一个状态的经验值的变化量，通过使用集中不等式提高算法的可伸缩性，取得了优于先前最佳算法的研究成果，可以实现与已知理论下限相匹配的后悔度。

Mar, 2017

基于模型的强化学习和逃避维度

本文研究学习优化未知马尔可夫决策过程问题，并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界，并提出了一种简单而计算高效的后验采样算法（PSRL）来满足这些界。

Jun, 2014