线性 MDPs 中的强化学习：常数遗憾和表示选择

Oct, 2021

线性 MDPs 中的强化学习：常数遗憾和表示选择

Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection

Matteo Papini, Andrea Tirinzoni, Aldo Pacchiano, Marcello Restelli, Alessandro Lazaric...

TL;DR研究在具有线性结构的有限时间马尔可夫决策过程（MDPs）中，状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色，提出了普遍跨越最优特征（UNISOFT）的概念，证明当给定的表示满足 UNISOFT 条件时，提出的算法达到恒定的遗憾。

Abstract

We study the role of the representation of state-action value functions in regret minimization in finite-horizon markov decision processes (MDPs) with linear structure. We first derive a necessary condition on th

regret minimization markov decision processes optimal features representation selection constant regret

发现论文，激发创造

线性马尔可夫决策过程中的常数遗憾解决

我们研究了强化学习中的恒定遗憾保证问题，提出了一种算法 Cert-LSVI-UCB，用于在线性马尔科夫决策过程中近似转移核和奖励函数，利用认证估计器进行集中分析，证明了其对于无限次运行具有恒定的遗憾边界，不依赖先验分布假设。

Apr, 2024

光滑 MDPs 中的无悔强化学习

为了解决在连续状态和 / 或动作空间中得到强化学习（RL）无后悔保证仍然是该领域的主要挑战之一，本论文引入了一种新的结构性假设，即 $ u-$ 平滑性，它概括了迄今已提出的大多数设置（如线性 MDPs 和 Lipschitz MDPs），我们提出了两种算法，在 $ u-$ 平滑 MDPs 中对后悔进行最小化，这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上，第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性，但计算效率低，而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别，但适用于较小的问题类别，经分析它们的后悔性能，我们将结果与 RL 理论的最新成果进行了比较，表明我们的算法达到了最佳保证。

Feb, 2024

强化学习中的状态表示选择

该研究论文研究了强化学习中选择正确的状态表示问题，提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。

Feb, 2013

结构化强化学习的探索

研究了基于有限状态和行动空间的强化学习问题，探讨了如何最小化次优（状态、行动）对的探索率。得出特定于问题的遗憾下限，并提出一种新的学习算法 DEL （Directed Exploration Learning），让算法的性能达到遗憾下限，且对于 Lipschitz 连续性的 MDP，简化版 DEL 算法仍能高效利用其结构。

Jun, 2018

使用线性函数逼近的非平稳强化学习

这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中，通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限，提出了两种最优算法：LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持，并进行了有效性验证。

Oct, 2020

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

线性马尔可夫决策过程的无界遗憾

近期一些研究工作展示了强化学习中降低后悔的边界可以（几乎）与计划周期无关，即所谓的无周期边界。然而，这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置，例如表格型马尔科夫决策过程（MDP）和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界，其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比，该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数，而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器，该方法获得了无周期边界，并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。

Mar, 2024

在强化学习中选择近似最优的状态表示

本文研究了一种强化学习设置，其中学习者没有显式访问底层马尔可夫决策过程（MDP）的状态，而是可以访问将过去互动的历史映射到状态的多个模型，并改进了这种设置下已知的后悔边界，并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。

May, 2014

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在 MDP 总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020