交替优化与积分在鲁棒控制中的应用
本论文介绍了贝叶斯优化的基本概念,以及该方法在优化高代价函数时的应用。此外,本文还介绍了两个扩展应用领域,并对该方法的优点和缺点进行了讨论。
Dec, 2010
本文提出了一种使用贝叶斯模型不确定性的模块化强化学习方法,BOSS(Best of Sampled Set)。该方法通过从后验分布中抽取多个模型并乐观地选择行动来推动探索。我们展示了该算法在近乎最优的收益和高概率下的样本复杂度较低,远低于后验分布在学习过程中收敛的速度。我们示范了BOSS与一种横跨状态的非参数模型配对,表明它的灵活性。
May, 2012
该论文介绍了一个基于ABC的简单通用框架,用于无似然贝叶斯强化学习,该算法主要利用先验分布,能够应用在基于详细模拟模型的领域,试验结果证实了该算法在LSPI比较中具有潜在优势,并引入了一个定理,证明了该算法是原则上可行的。
Mar, 2013
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
本文提出了一种基于贝叶斯优化算法的方法,通过利用来自仿真的先验知识,自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略,从而减少实验次数和成本。
Mar, 2017
本文介绍了指纹策略优化算法 (FPO),使用贝叶斯优化来发现最大化策略梯度方法每次迭代产生的改进的环境变量分布,可以有效地学习对重要罕见事件具有稳健性的策略。
May, 2018
本文研究了离线强化学习的一个悲观策略Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023