基于模型的强化学习在连续控制中的后验采样
该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。
Jun, 2013
本文介绍了一种名为 PSDRL 的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在 Atari 基准测试上进行广泛实验,PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。
Apr, 2023
通过后验采样强化学习实现了比乐观主义算法(如 UCRL2)显着更好的效果,并建立了一个新的贝叶斯期望遗憾界,优于以往任何强化学习算法,该界为 O (H√SAT)。
Jul, 2016
该研究提出了一种基于后验采样的在线强化学习算法,即 PSRL-SSP,用于解决短路径问题,该算法只需要先验分布的知识,并且具有贝叶斯后悔界,是首个这样的后验采样算法,并在数值上优于之前提出的基于乐观主义的算法。
Jun, 2021
本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL,它能够在不需要安全策略的前提下有效地平衡探索和开发,并通过采用悲观主义的思想仅受到有界的约束违规,从而在理论和实践上得到了良好的表现。
Jan, 2023
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为 O (d√(H^3 T log T)) 的方法,其中 d 表示转移核的维度,H 表示规划时间,T 表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准 (Osband 和 Van Roy,2014) 优化了 O (√log T) 因子,我们的方法采用了面向值的模型学习视角,引入解耦和方案和方差减少技术,超越了传统分析对置信区间和集中不等式的依赖,更有效地规范贝叶斯遗憾界限。
Mar, 2024
本工作提出了一种非线性函数近似的新方法,该方法考虑了具有一般动作空间下的线性可嵌入性条件,设计了一种新的乐观后验取样策略 TS^3,并展示了一些最坏情况的样本复杂度保证。
Mar, 2022
本研究针对无固定回合环境下应用后验采样增强学习算法(PSRL)的问题进行技术性澄清,回顾了相关 MDP 类的已证明结果及乐观算法无限时间问题的结果,并提出了在无限时间问题中实现 PSRL 的实用方法及一种反对 Abbasi-Yadkori 和 Szepesvari 2015 年算法证明的反例。
Aug, 2016
使用后验采样算法处理强化学习中的延迟反馈问题,通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现,并在未知随机延迟的情况下具有最坏情况遗憾上界。
Oct, 2023