无模型的后验采样通过学习率随机化

Oct, 2023

无模型的后验采样通过学习率随机化

Model-free Posterior Sampling via Learning Rate Randomization

Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos...

TL;DR介绍了一种名为随机化 Q 学习（RandQL）的新型基于后验抽样的模型无关算法，用于减小判断失误在分节马尔可夫决策过程（MDPs）中的影响，分析了它在标表和非标表度量空间设置下的性能，表明其乐观探索方法优于现有的方法。

Abstract

In this paper, we introduce randomized q-learning (RandQL), a novel randomized model-free algorithm for regret minimization in episodic Markov Decision Processes (MDPs). To the best of our knowledge, RandQL is th

randomized q-learning regret minimization episodic markov decision processes posterior sampling-based algorithm optimistic exploration

发现论文，激发创造

针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法

提出了一种基于 EE-QL，结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法，实现了与最佳已知基于模型算法相似的学习速度。

Jun, 2020

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018

通过随机化提高基于偏好反馈的强化学习的效率

这项研究介绍了一种利用人类反馈的强化学习算法，在线性 MDP 模型和非线性函数逼近模型下，通过随机化算法设计实现了高样本效率和多项式计算复杂度，并通过一种新颖的随机主动学习过程最小化了查询复杂度，同时在后者中取得了近乎最优的折衷结果。

Oct, 2023

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

基于后验采样的时态 POMDP 学习算法的遗憾分析

本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题，并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。

Oct, 2023

先验依赖的函数逼近后验采样强化学习分析

利用线性混合马尔可夫决策过程模拟的函数逼近方法，本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限，并对后验抽样强化学习的贝叶斯遗憾分析进行了改进，提出了一个上界为 O (d√(H^3 T log T)) 的方法，其中 d 表示转移核的维度，H 表示规划时间，T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy，2014) 优化了 O (√log T) 因子，我们的方法采用了面向值的模型学习视角，引入解耦和方案和方差减少技术，超越了传统分析对置信区间和集中不等式的依赖，更有效地规范贝叶斯遗憾界限。

Mar, 2024

具有平均回报目标的随机博弈中的分散式无模型强化学习

本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法，称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning)，该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比，该算法具有低计算复杂度和低内存空间要求。

Jan, 2023