该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。
Jun, 2013
通过后验采样强化学习实现了比乐观主义算法(如 UCRL2)显着更好的效果,并建立了一个新的贝叶斯期望遗憾界,优于以往任何强化学习算法,该界为 O (H√SAT)。
Jul, 2016
该研究提出了一种基于后验采样的在线强化学习算法,即 PSRL-SSP,用于解决短路径问题,该算法只需要先验分布的知识,并且具有贝叶斯后悔界,是首个这样的后验采样算法,并在数值上优于之前提出的基于乐观主义的算法。
Jun, 2021
该文提出了一种新颖的基于后验采样算法的马尔可夫博弈的可证明有效性算法,其中实现了对广义函数逼近的解决方案,并证明了该算法在满足一定条件的问题中具有 sqrt (T) 的后悔上限,丰富了 MGs 的工具箱并促进了后验采样的广泛应用。
Oct, 2022
本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG,在同类算法中取得了更好的效果,可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态,提高了博弈的竞争性能。
Dec, 2017
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了 MPC–PSRL 算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Nov, 2020
本研究针对无固定回合环境下应用后验采样增强学习算法(PSRL)的问题进行技术性澄清,回顾了相关 MDP 类的已证明结果及乐观算法无限时间问题的结果,并提出了在无限时间问题中实现 PSRL 的实用方法及一种反对 Abbasi-Yadkori 和 Szepesvari 2015 年算法证明的反例。
Aug, 2016
我们提出了首个在线量子算法,用于零和游戏,可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡,与 $m$,$n$ 的经典算法相比,取得了二次的改进,同时实现了一个快速的量子线性规划求解器。
Apr, 2023
提出了一种基于后验采样的算法,应用于具有有限但未知直径的 Markov 决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明 Dirichlet 分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法,称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning),该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比,该算法具有低计算复杂度和低内存空间要求。
Jan, 2023