使用后验抽样学习零和随机博弈

Sep, 2021

Learning Zero-sum Stochastic Games with Posterior Sampling

Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar

TL;DR本文提出了后验采样强化学习算法，用于处理无限期零和随机博弈问题，在对手可以采取任意自适应策略的情况下，实现贝叶斯遗憾度的上界，并以平均奖励作为参数进行优化。该算法突破了当前数据的下限，并提高了效率。

Abstract

In this paper, we propose posterior sampling reinforcement learning for zero-sum stochastic games (PSRL-ZSG), the first online learning al

posterior sampling reinforcement learning zero-sum stochastic games online learning bayesian regret bound average-reward criterion

发现论文，激发创造

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

后验采样在强化学习中为何优于乐观法？

通过后验采样强化学习实现了比乐观主义算法（如 UCRL2）显着更好的效果，并建立了一个新的贝叶斯期望遗憾界，优于以往任何强化学习算法，该界为 O (H√SAT)。

Jul, 2016

通过后验采样的随机最短路径模型在线学习

该研究提出了一种基于后验采样的在线强化学习算法，即 PSRL-SSP，用于解决短路径问题，该算法只需要先验分布的知识，并且具有贝叶斯后悔界，是首个这样的后验采样算法，并在数值上优于之前提出的基于乐观主义的算法。

Jun, 2021

基于自博弈后验采样算法的零和 Markov 博弈

该文提出了一种新颖的基于后验采样算法的马尔可夫博弈的可证明有效性算法，其中实现了对广义函数逼近的解决方案，并证明了该算法在满足一定条件的问题中具有 sqrt (T) 的后悔上限，丰富了 MGs 的工具箱并促进了后验采样的广泛应用。

Oct, 2022

随机博弈中的在线强化学习

本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG，在同类算法中取得了更好的效果，可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态，提高了博弈的竞争性能。

Dec, 2017

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020

无需回合的强化学习后验抽样

本研究针对无固定回合环境下应用后验采样增强学习算法（PSRL）的问题进行技术性澄清，回顾了相关 MDP 类的已证明结果及乐观算法无限时间问题的结果，并提出了在无限时间问题中实现 PSRL 的实用方法及一种反对 Abbasi-Yadkori 和 Szepesvari 2015 年算法证明的反例。

Aug, 2016

零和游戏的对数遗憾量子学习算法

我们提出了首个在线量子算法，用于零和游戏，可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡，与 $m$，$n$ 的经典算法相比，取得了二次的改进，同时实现了一个快速的量子线性规划求解器。

Apr, 2023

强化学习的后验采样：最坏情况的遗憾界

提出了一种基于后验采样的算法，应用于具有有限但未知直径的 Markov 决策过程中，证明了近最优的最坏情况遗憾上界。这种方法通过证明 Dirichlet 分布的反集中性，可能具有独立研究价值，并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。

May, 2017

具有平均回报目标的随机博弈中的分散式无模型强化学习

本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法，称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning)，该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比，该算法具有低计算复杂度和低内存空间要求。

Jan, 2023