使用经验伯恩斯坦不等式的近乎最优乐观强化学习

May, 2019

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

Near-optimal Optimistic Reinforcement Learning using Empirical Bernstein Inequalities

Aristide Tossou, Debabrota Basu, Christos Dimitrakakis

TL;DR本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

Abstract

We study model-based reinforcement learning in an unknown finite communicating markov decision process. We propose a simple algorithm that leverages a variance based confidence interval. We show that the proposed

model-based reinforcement learning communicating markov decision process ucrl-v algorithm regret experimental validation

发现论文，激发创造

使用经验伯恩斯坦不等式对 UCRL2 算法进行改进分析

分析了应用 Empirical Bernstein 不等式的 UCRL2 算法在探索和开发问题上的应用，结果表明在通信 Markov 决策过程中，UCRL2B 算法的损失被限制在 $\widetilde {O}(\sqrt {D\Gamma SAT})$。

Jul, 2020

线性混合 Markov 决策过程的近最小极小化强化学习

本文研究了具有线性函数逼近的增强学习，其中马尔科夫决策过程（MDP）的潜在转移概率核心为线性混合模型，并且学习代理具有单个基础核函数的积分或采样神谕的访问。基于我们提出的新的 Bernstein 型自归一类化不等式，我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法，以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。我们还提出了新的算法 $ ext {UCLK}^{+}$，适用于同一类 MDP 的折扣情况，这两种算法分别在最小化最大性上达到了近乎最小值，是线性函数逼近 RL 的第一篇计算有效性，近乎最小值的论文。

Dec, 2020

近乎最小最大化优化强化学习在折扣 MDPs 上

通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ，最小化为折扣 MDPs 所得出的代价，其误差上界是 sqrt (SAT)/(1−γ)^(3/2)，与 minimax 下界的误差相等。

Oct, 2020

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

上置信强化学习中的探索优化

UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进，以减少探索来优化分布，理论上改善了 UCRL2 算法，在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。

Apr, 2020

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

强化学习的乐观主义和库尔巴克 - 莱布勒散度

本文研究有限 MDP 情景下基于模型的强化学习，提出使用 KL 散度实现乐观策略的目标约束，并证明基于 KL-UCRL 算法相较于 UCRL2 算法在经典评估标准中具有显著改善表现，提供了相对应的几何学分析进行说明。

Apr, 2010

约束上置信强化学习

本文提出了一种名为 C-UCRL 的算法，扩展了上置信度强化学习的范围，解决了在奖励函数、约束和转移核函数均未知的情况下探索未知、潜在不安全的环境问题，并在学习的过程中满足奖励约束条件，具有亚线性后悔度。

Jan, 2020