后验采样在强化学习中为何优于乐观法？

Jul, 2016

后验采样在强化学习中为何优于乐观法？

Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

Ian Osband, Benjamin Van Roy

TL;DR通过后验采样强化学习实现了比乐观主义算法（如 UCRL2）显着更好的效果，并建立了一个新的贝叶斯期望遗憾界，优于以往任何强化学习算法，该界为 O (H√SAT)。

Abstract

Computational results demonstrate that posterior sampling for reinforcement learning (PSRL) dramatically outperforms algorithms driven by optimism, such as UCRL2. We provide insight into the extent of this perfor

reinforcement learning posterior sampling optimism bayesian expected regret bound markov decision processes

发现论文，激发创造

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

无需回合的强化学习后验抽样

本研究针对无固定回合环境下应用后验采样增强学习算法（PSRL）的问题进行技术性澄清，回顾了相关 MDP 类的已证明结果及乐观算法无限时间问题的结果，并提出了在无限时间问题中实现 PSRL 的实用方法及一种反对 Abbasi-Yadkori 和 Szepesvari 2015 年算法证明的反例。

Aug, 2016

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020

使用后验抽样学习零和随机博弈

本文提出了后验采样强化学习算法，用于处理无限期零和随机博弈问题，在对手可以采取任意自适应策略的情况下，实现贝叶斯遗憾度的上界，并以平均奖励作为参数进行优化。该算法突破了当前数据的下限，并提高了效率。

Sep, 2021

深度强化学习的后验抽样

本文介绍了一种名为 PSDRL 的算法，它是第一个真正可扩展的近似后验采样强化学习算法，它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化，经过在 Atari 基准测试上进行广泛实验，PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。

Apr, 2023

有保证的受限强化学习中高效的探索：后验抽样即可

基于后验抽样的算法在约束马尔可夫决策过程（CMDP）的无限时间不折扣设置中提供了近最优的遗憾界限，同时在实证上比现有算法更具优势。

Sep, 2023

具有延迟反馈的后验抽样用于线性函数逼近的强化学习

使用后验采样算法处理强化学习中的延迟反馈问题，通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现，并在未知随机延迟的情况下具有最坏情况遗憾上界。

Oct, 2023

基于后验采样的时态 POMDP 学习算法的遗憾分析

本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题，并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。

Oct, 2023

先验依赖的函数逼近后验采样强化学习分析

利用线性混合马尔可夫决策过程模拟的函数逼近方法，本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限，并对后验抽样强化学习的贝叶斯遗憾分析进行了改进，提出了一个上界为 O (d√(H^3 T log T)) 的方法，其中 d 表示转移核的维度，H 表示规划时间，T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy，2014) 优化了 O (√log T) 因子，我们的方法采用了面向值的模型学习视角，引入解耦和方案和方差减少技术，超越了传统分析对置信区间和集中不等式的依赖，更有效地规范贝叶斯遗憾界限。

Mar, 2024

基于模型的强化学习：乐观后验采样的结构条件与样本复杂度

本文提出了一种通用框架来设计基于模型的 RL 的后验抽样方法，并表明所提出的算法可以通过在条件概率估计中将遗憾降至 Hellinger 距离来分析，进一步表明，在通过数据似然度量模型误差时，乐观后验抽样可以控制此 Hellinger 距离，这种技术允许我们设计和分析具有国内领先样本复杂度保证的多种基于模型的 RL 设置的统一后验抽样算法。我们在许多特殊情况下说明了我们的一般结果，展示了我们框架的多功能性。

Jun, 2022