光滑 MDPs 中的无悔强化学习

Feb, 2024

No-Regret Reinforcement Learning in Smooth MDPs

Davide Maran, Alberto Maria Metelli, Matteo Papini, Marcello Restell

TL;DR为了解决在连续状态和 / 或动作空间中得到强化学习（RL）无后悔保证仍然是该领域的主要挑战之一，本论文引入了一种新的结构性假设，即 $ u-$ 平滑性，它概括了迄今已提出的大多数设置（如线性 MDPs 和 Lipschitz MDPs），我们提出了两种算法，在 $ u-$ 平滑 MDPs 中对后悔进行最小化，这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上，第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性，但计算效率低，而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别，但适用于较小的问题类别，经分析它们的后悔性能，我们将结果与 RL 理论的最新成果进行了比较，表明我们的算法达到了最佳保证。

Abstract

Obtaining no-regret guarantees for reinforcement learning (RL) in the case of problems with continuous state and/or action spaces is still one of the major open challenges in the field. Recently, a variety of sol

reinforcement learning continuous state continuous action regret minimization markov decision processes

发现论文，激发创造

通过无悔动力学求解健壮 MDP

通过解决最小最大迭代优化问题的简单框架，我们利用在线非凸学习和改进策略梯度方法的技术，提出了一种算法，该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。

May, 2023

线性 MDPs 中的强化学习：常数遗憾和表示选择

研究在具有线性结构的有限时间马尔可夫决策过程（MDPs）中，状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色，提出了普遍跨越最优特征（UNISOFT）的概念，证明当给定的表示满足 UNISOFT 条件时，提出的算法达到恒定的遗憾。

Oct, 2021

潜在 MDPs 的强化学习：遗憾保证和下界

在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。

Feb, 2021

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022

稀疏强化学习的双重稳健方法

我们提出了一种新的遗憾最小化算法，用于具有稀疏线性马尔可夫决策过程（SMDP）的情节性问题，其中状态转移分布是观察特征的线性函数。

Oct, 2023

改进的随机最短路径线性 MDP 无悔算法

提出两种新的无懊悔算法解决带有线性 MDP 的随机最短路径问题，其中第一种算法能够以较低的计算成本获得较小的后悔界，并且对于有限时间情况，还获得了对数后悔界；而第二种算法则实现了无时间限制情况下的近乎最优性，但计算成本较高。

Dec, 2021

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

结构化强化学习的探索

研究了基于有限状态和行动空间的强化学习问题，探讨了如何最小化次优（状态、行动）对的探索率。得出特定于问题的遗憾下限，并提出一种新的学习算法 DEL （Directed Exploration Learning），让算法的性能达到遗憾下限，且对于 Lipschitz 连续性的 MDP，简化版 DEL 算法仍能高效利用其结构。

Jun, 2018

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020