贝叶斯探索网络
本研究提出了一种基于蒙特卡洛树搜索(Monte-Carlo tree search)的可行的、基于样本的近似贝叶斯最优规划方法,它避免了在搜索树中昂贵的应用贝叶斯规则,通过从当前信念中懒惰地抽样模型。实验证明,与以前的贝叶斯模型为基础的RL算法相比,在几个知名的基准问题上,我们的方法表现出了明显的优势。
May, 2012
本文提出了一种使用贝叶斯模型不确定性的模块化强化学习方法,BOSS(Best of Sampled Set)。该方法通过从后验分布中抽取多个模型并乐观地选择行动来推动探索。我们展示了该算法在近乎最优的收益和高概率下的样本复杂度较低,远低于后验分布在学习过程中收敛的速度。我们示范了BOSS与一种横跨状态的非参数模型配对,表明它的灵活性。
May, 2012
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续Bayes-Adaptive Markov Decision Process(BAMDP)算法,其中代理人维护潜在模型参数的后验分布,并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上,以学习通用策略,以最大化贝叶斯价值函数的探索-开发权衡。为了应对从离散化连续潜在参数空间带来的挑战,我们提出了一种新的策略网络体系结构,可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法,并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。
Oct, 2018
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对H-UCRL分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定Bellman方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态-行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态-行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为VAPOR,与汤普森抽样、K学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本VAPOR在性能上的优势。
Nov, 2023
一种用于处理约束马尔可夫决策过程的安全强化学习方法CERL被提出,该方法通过利用贝叶斯世界模型并建议对模型的认知不确定性持悲观态度的策略,确保了安全性和学习过程中的安全探索,实验结果显示CERL在处理基于图像观察的CMDP的安全性和最优性方面优于现有最先进方法。
May, 2024
在这篇文章中,我们解决了以未知动态的有限状态马尔科夫决策过程(MDPs)的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性,以及一种无需依赖于MDP的后验分布的强假设来找到优化贝叶斯后验期望值的策略的新技术。
Jun, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024