线性马尔可夫决策过程中的常数遗憾解决

Apr, 2024

线性马尔可夫决策过程中的常数遗憾解决

Settling Constant Regrets in Linear Markov Decision Processes

Weitong Zhang, Zhiyuan Fan, Jiafan He, Quanquan Gu

TL;DR我们研究了强化学习中的恒定遗憾保证问题，提出了一种算法 Cert-LSVI-UCB，用于在线性马尔科夫决策过程中近似转移核和奖励函数，利用认证估计器进行集中分析，证明了其对于无限次运行具有恒定的遗憾边界，不依赖先验分布假设。

Abstract

We study the constant regret guarantees in reinforcement learning (RL). Our objective is to design an algorithm that incurs only finite regret over infinite episodes with high probability. We introduce an algorit

reinforcement learning regret guarantees linear markov decision processes certified estimator model misspecification

发现论文，激发创造

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

线性 MDPs 中的强化学习：常数遗憾和表示选择

研究在具有线性结构的有限时间马尔可夫决策过程（MDPs）中，状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色，提出了普遍跨越最优特征（UNISOFT）的概念，证明当给定的表示满足 UNISOFT 条件时，提出的算法达到恒定的遗憾。

Oct, 2021

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

使用线性函数逼近的非平稳强化学习

这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中，通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限，提出了两种最优算法：LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持，并进行了有效性验证。

Oct, 2020

线性函数逼近强化学习的对数遗憾

该研究探讨了使用线性函数逼近的强化学习，提出了新的线性 MDP 假设，并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。

Nov, 2020

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

潜在 MDPs 的强化学习：遗憾保证和下界

在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。

Feb, 2021

近乎最小最大化优化强化学习在折扣 MDPs 上

通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ，最小化为折扣 MDPs 所得出的代价，其误差上界是 sqrt (SAT)/(1−γ)^(3/2)，与 minimax 下界的误差相等。

Oct, 2020

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

在希尔伯特空间中改进的自标准化集中度：GP-UCB 的次线性遗憾

本文解决了若干向来未解的开放性问题，提供了超线性收敛速度，证明了 GP-UCB 算法在大多数流行核函数上具有最优回报，且证明了简化版本的自标准化集中不等式和超鞅技术是关键技术工具。

Jul, 2023