竞争强化学习的后验采样：函数逼近和部分观测

Oct, 2023

竞争强化学习的后验采样：函数逼近和部分观测

Posterior Sampling for Competitive RL: Function Approximation and Partial Observation

Shuang Qiu, Ziyu Dai, Han Zhong, Zhaoran Wang, Zhuoran Yang...

TL;DR该研究讨论了用于竞争强化学习的后验抽样算法，针对一般函数逼近的背景进行研究。在自我对弈和对抗性学习两个关键设置下，提出了自我对弈和对抗性广义躲避者系数（GEC）作为函数逼近的复杂度度量，捕捉了对马尔科夫博弈中的探索与利用的平衡。基于自我对弈 GEC，提出了基于模型的自我对弈后验抽样方法来控制玩家学习纳什均衡，成功应对了状态的部分可观测性。此外，确定了一系列部分可观测的 MG 模型，适应对手的对抗性策略的 MG 学习。结合对抗性 GEC，提出了基于模型的用于学习对抗性 MG 的后验抽样方法，包括可能部分可观测的情况。进一步给出了所提算法的低后悔界限，它能够与所提出的 GEC 和剧集数量 T 呈次线性缩放。据我们所知，我们首次开发了用于竞争强化学习的通用基于模型的后验抽样算法，可应用于大多数易处理的零和 MG 类别，包括完全可观测和部分可观测 MG，并适用于自我对弈和对抗性学习。

Abstract

This paper investigates posterior sampling algorithms for competitive reinforcement learning (RL) in the context of general function approximations. Focusing on zero-sum markov games (MGs) under two critical settings, namely →

competitive reinforcement learning function approximation markov games self-play adversarial learning

发现论文，激发创造

基于自博弈后验采样算法的零和 Markov 博弈

该文提出了一种新颖的基于后验采样算法的马尔可夫博弈的可证明有效性算法，其中实现了对广义函数逼近的解决方案，并证明了该算法在满足一定条件的问题中具有 sqrt (T) 的后悔上限，丰富了 MGs 的工具箱并促进了后验采样的广泛应用。

Oct, 2022

具有延迟反馈的后验抽样用于线性函数逼近的强化学习

使用后验采样算法处理强化学习中的延迟反馈问题，通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现，并在未知随机延迟的情况下具有最坏情况遗憾上界。

Oct, 2023

GEC：MDP、POMDP 及更广泛情境下交互式决策的统一框架

我们研究了基于互动决策制定的样本有效强化学习，提出了广义 Eluder 系数作为复杂度度量，并通过后验采样算法在完全可观察和部分可观察的环境下实现模型自由和模型为基础的学习，在探索和开发之间建立了基本权衡。

Nov, 2022

部分可观马尔可夫博弈中高效学习的样本有效强化学习

本文研究了多智能体强化学习在部分可观察性下的挑战性任务，其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈，证明了一个富裕的子类可以使用样本高效的学习方法，从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡，当代理数量很小时可在多项式样本复杂度内学得。

Jun, 2022

先验依赖的函数逼近后验采样强化学习分析

利用线性混合马尔可夫决策过程模拟的函数逼近方法，本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限，并对后验抽样强化学习的贝叶斯遗憾分析进行了改进，提出了一个上界为 O (d√(H^3 T log T)) 的方法，其中 d 表示转移核的维度，H 表示规划时间，T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy，2014) 优化了 O (√log T) 因子，我们的方法采用了面向值的模型学习视角，引入解耦和方案和方差减少技术，超越了传统分析对置信区间和集中不等式的依赖，更有效地规范贝叶斯遗憾界限。

Mar, 2024

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020

关于样本高效的离线强化学习：数据多样性，后验采样和更多

我们提出了一个新颖的基于后验采样的离线 RL 算法，该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能，并且具有频率主义的亚优性界限。

Jan, 2024

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

本工作提出了一种非线性函数近似的新方法，该方法考虑了具有一般动作空间下的线性可嵌入性条件，设计了一种新的乐观后验取样策略 TS^3，并展示了一些最坏情况的样本复杂度保证。

Mar, 2022

基于模型的强化学习：乐观后验采样的结构条件与样本复杂度

本文提出了一种通用框架来设计基于模型的 RL 的后验抽样方法，并表明所提出的算法可以通过在条件概率估计中将遗憾降至 Hellinger 距离来分析，进一步表明，在通过数据似然度量模型误差时，乐观后验抽样可以控制此 Hellinger 距离，这种技术允许我们设计和分析具有国内领先样本复杂度保证的多种基于模型的 RL 设置的统一后验抽样算法。我们在许多特殊情况下说明了我们的一般结果，展示了我们框架的多功能性。

Jun, 2022