近乎最小最大化优化强化学习在折扣 MDPs 上

Oct, 2020

近乎最小最大化优化强化学习在折扣 MDPs 上

Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs

Jiafan He, Dongruo Zhou, Quanquan Gu

TL;DR通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ，最小化为折扣 MDPs 所得出的代价，其误差上界是 sqrt (SAT)/(1−γ)^(3/2)，与 minimax 下界的误差相等。

Abstract

We study the reinforcement learning problem for discounted Markov Decision Processes (MDPs) under the tabular setting. We propose a model-based algorithm named UCBVI-$\gamma$, which is based on the \emph{optimism

reinforcement learning markov decision processes algorithm regret discounted mdps

发现论文，激发创造

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

参考优势分解下几乎最优无模型强化学习

使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题，证明了该算法得到了比以前更好的失望值，并且在并发强化学习中表现出了较低的本地切换成本。

Apr, 2020

在平均回报 MDPs 中实现可行的最小最优后悔

这篇论文介绍了一种具有最小最大后悔度的可行算法，该算法通过使用一种新颖的子程序，即 Projected Mitigated Extended Value Iteration（PMEVI），来高效地计算偏差受限最优策略。同时，该算法不需要先前关于偏差函数的信息。

Jun, 2024

可证明高效的无限时间平均回报线性 MDP 的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。

May, 2024

线性混合 Markov 决策过程的近最小极小化强化学习

本文研究了具有线性函数逼近的增强学习，其中马尔科夫决策过程（MDP）的潜在转移概率核心为线性混合模型，并且学习代理具有单个基础核函数的积分或采样神谕的访问。基于我们提出的新的 Bernstein 型自归一类化不等式，我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法，以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。我们还提出了新的算法 $ ext {UCLK}^{+}$，适用于同一类 MDP 的折扣情况，这两种算法分别在最小化最大性上达到了近乎最小值，是线性函数逼近 RL 的第一篇计算有效性，近乎最小值的论文。

Dec, 2020

强化学习的极小后悔界

本文研究了有限时间 MDPs 中探索的最优性问题，提出了一种基于值迭代的乐观算法，其探索奖励基于下一个状态的经验值的变化量，通过使用集中不等式提高算法的可伸缩性，取得了优于先前最佳算法的研究成果，可以实现与已知理论下限相匹配的后悔度。

Mar, 2017

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法 Kernel-UCBVI，以及使用平滑核估计 MDP 奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中，本文通过实验验证了该方法。

Apr, 2020

通过评估最优偏置函数实现强化学习的遗憾最小化

基于 “面对不确定性的乐观原则” 的算法，使用有限状态 - 动作空间的、用马尔可夫决策过程（MDP）建模的强化学习（RL）有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异，该算法在已知 $sp (h^{*})$ 的情况下实现 MDP 的遗憾界为 $\tilde {O}(\sqrt {SAHT})$，这个结果超过了先前的最佳遗憾界 $\tilde {O}(S\sqrt {AHT})$，并且匹配了遗憾下界。此外，对于有限直径 $D$ 的 MDP，我们证明了 $ ilde {O}(\sqrt {SADT})$ 接近于最佳遗憾上界。

Jun, 2019