深度强化学习的后验抽样
该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。
Jun, 2013
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了 MPC–PSRL 算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Nov, 2020
通过后验采样强化学习实现了比乐观主义算法(如 UCRL2)显着更好的效果,并建立了一个新的贝叶斯期望遗憾界,优于以往任何强化学习算法,该界为 O (H√SAT)。
Jul, 2016
我们提出了一个新颖的基于后验采样的离线 RL 算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法 DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的 RL 的后验保证率。
Aug, 2019
使用后验采样算法处理强化学习中的延迟反馈问题,通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现,并在未知随机延迟的情况下具有最坏情况遗憾上界。
Oct, 2023
本研究针对无固定回合环境下应用后验采样增强学习算法(PSRL)的问题进行技术性澄清,回顾了相关 MDP 类的已证明结果及乐观算法无限时间问题的结果,并提出了在无限时间问题中实现 PSRL 的实用方法及一种反对 Abbasi-Yadkori 和 Szepesvari 2015 年算法证明的反例。
Aug, 2016
我们提出了一种新的后验抽样方法,其中先验以环境变量之间的(部分)因果图形式给出,该方法称为 C-PSRL,在同时学习更高层次的完整因果图和更低层次的分解动力学参数时,明确了其贝叶斯遗失与先验知识的程度之间的关系。我们在说明性领域进行的数值评估证实了 C-PSRL 在先验信息不足的情况下极大提高了后验抽样的效率,并且性能接近使用完整因果图进行后验抽样。
Oct, 2023
该研究提出了一种基于后验采样的在线强化学习算法,即 PSRL-SSP,用于解决短路径问题,该算法只需要先验分布的知识,并且具有贝叶斯后悔界,是首个这样的后验采样算法,并在数值上优于之前提出的基于乐观主义的算法。
Jun, 2021