具有延迟反馈的后验抽样用于线性函数逼近的强化学习

Oct, 2023

具有延迟反馈的后验抽样用于线性函数逼近的强化学习

Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation

Nikki Lijing Kuang, Ming Yin, Mengdi Wang, Yu-Xiang Wang, Yi-An Ma

TL;DR使用后验采样算法处理强化学习中的延迟反馈问题，通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现，并在未知随机延迟的情况下具有最坏情况遗憾上界。

Abstract

Recent studies in reinforcement learning (RL) have made significant progress by leveraging function approximation to alleviate the sample complexity hurdle for better performance. Despite the success, existing provably efficient algorithms typically rely on the accessibility of immedia

reinforcement learning delayed feedback linear function approximation posterior sampling regret blow-up

发现论文，激发创造

先验依赖的函数逼近后验采样强化学习分析

利用线性混合马尔可夫决策过程模拟的函数逼近方法，本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限，并对后验抽样强化学习的贝叶斯遗憾分析进行了改进，提出了一个上界为 O (d√(H^3 T log T)) 的方法，其中 d 表示转移核的维度，H 表示规划时间，T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy，2014) 优化了 O (√log T) 因子，我们的方法采用了面向值的模型学习视角，引入解耦和方案和方差减少技术，超越了传统分析对置信区间和集中不等式的依赖，更有效地规范贝叶斯遗憾界限。

Mar, 2024

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020

后验采样在强化学习中为何优于乐观法？

通过后验采样强化学习实现了比乐观主义算法（如 UCRL2）显着更好的效果，并建立了一个新的贝叶斯期望遗憾界，优于以往任何强化学习算法，该界为 O (H√SAT)。

Jul, 2016

深度强化学习的后验抽样

本文介绍了一种名为 PSDRL 的算法，它是第一个真正可扩展的近似后验采样强化学习算法，它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化，经过在 Atari 基准测试上进行广泛实验，PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。

Apr, 2023

大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

本工作提出了一种非线性函数近似的新方法，该方法考虑了具有一般动作空间下的线性可嵌入性条件，设计了一种新的乐观后验取样策略 TS^3，并展示了一些最坏情况的样本复杂度保证。

Mar, 2022

竞争强化学习的后验采样：函数逼近和部分观测

该研究讨论了用于竞争强化学习的后验抽样算法，针对一般函数逼近的背景进行研究。在自我对弈和对抗性学习两个关键设置下，提出了自我对弈和对抗性广义躲避者系数（GEC）作为函数逼近的复杂度度量，捕捉了对马尔科夫博弈中的探索与利用的平衡。基于自我对弈 GEC，提出了基于模型的自我对弈后验抽样方法来控制玩家学习纳什均衡，成功应对了状态的部分可观测性。此外，确定了一系列部分可观测的 MG 模型，适应对手的对抗性策略的 MG 学习。结合对抗性 GEC，提出了基于模型的用于学习对抗性 MG 的后验抽样方法，包括可能部分可观测的情况。进一步给出了所提算法的低后悔界限，它能够与所提出的 GEC 和剧集数量 T 呈次线性缩放。据我们所知，我们首次开发了用于竞争强化学习的通用基于模型的后验抽样算法，可应用于大多数易处理的零和 MG 类别，包括完全可观测和部分可观测 MG，并适用于自我对弈和对抗性学习。

Oct, 2023

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

有保证的受限强化学习中高效的探索：后验抽样即可

基于后验抽样的算法在约束马尔可夫决策过程（CMDP）的无限时间不折扣设置中提供了近最优的遗憾界限，同时在实证上比现有算法更具优势。

Sep, 2023