参考优势分解下几乎最优无模型强化学习

Apr, 2020

参考优势分解下几乎最优无模型强化学习

Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage Decomposition

Zihan Zhang, Yuan Zhou, Xiangyang Ji

TL;DR使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题，证明了该算法得到了比以前更好的失望值，并且在并发强化学习中表现出了较低的本地切换成本。

Abstract

We study the reinforcement learning problem in the setting of finite-horizon episodic markov decision processes (MDPs) with $S$ states, $A

reinforcement learning finite-horizon markov decision processes ucb-advantage regret bound

发现论文，激发创造

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

近乎最小最大化优化强化学习在折扣 MDPs 上

通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ，最小化为折扣 MDPs 所得出的代价，其误差上界是 sqrt (SAT)/(1−γ)^(3/2)，与 minimax 下界的误差相等。

Oct, 2020

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

无模型强化学习中的无限时域平均奖赏马尔可夫决策过程

本文提出两种基于无模型的强化学习算法，用于学习无限时间持续的平均回报 MDP 问题，第一种算法在弱相互通信的 MDPs 中，将问题简化为折扣回报问题，在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法；第二种算法利用了对抗多臂老虎机自适应算法的最新进展，将遗憾进一步改进至 O (sqrt (T))，但需要更强的符合人类定义的遍历条件。这个结果取代了 Abbasi-Yadkori 等人 2019 年只有在符合人类定义的遍历条件下的 ergodic MDP 才能达到 O (T^(3/4)) 的遗憾。

Oct, 2019

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

具有参考 - 优势分解的联邦 Q 学习：几乎最优的遗憾和对数通信成本

本文介绍了一种模型无关的联邦增强学习算法，称为 FedQ-Advantage，它利用基于参考优势的分解进行方差降低，并在两个不同的机制下运行：代理与服务器之间的同步和策略更新，两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本，而且在时间跨度足够大的情况下，达到了信息界的几乎最优遗憾，并且较其单一代理对应物获得了近线性遗憾加速。

May, 2024

带有 UCB 探索的 Q-learning 对于无限时域 MDP 具有样本效率

本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题，实验结果表明算法的探索样本复杂度的上限为 O（SA/ε²(1-𝛾)⁷），此外该算法还可提高之前深度 Q 学习的表现。

Jan, 2019

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023