交替优化与积分在鲁棒控制中的应用

May, 2016

交替优化与积分在鲁棒控制中的应用

Alternating Optimisation and Quadrature for Robust Reinforcement Learning

Supratik Paul, Kamil Ciosek, Michael A. Osborne, Shimon Whiteson

TL;DR本文提出一种名为ALOQ的方法，它结合了贝叶斯优化和贝叶斯积分来解决在考虑环境变量影响下找到鲁棒策略的问题，并且在实验中证明ALOQ比现有方法更高效和稳健。

Abstract

bayesian optimisation has been successfully applied to a variety of reinforcement learning problems. However, the traditional approach for learning optimal policies in simulators does not utilise the opportunity

发现论文，激发创造

昂贵代价函数的贝叶斯优化教程，及其在主动用户建模和分层强化学习中的应用

本论文介绍了贝叶斯优化的基本概念，以及该方法在优化高代价函数时的应用。此外，本文还介绍了两个扩展应用领域，并对该方法的优点和缺点进行了讨论。

Dec, 2010

紧密下限优化的健壮贝叶斯强化学习

本文提出贝叶斯强化学习中近似最优的无记忆策略，用以计算相关效用较紧的下界，使之得以应用于提高决策探索策略的鲁棒性。

Jun, 2011

强化学习探索的贝叶斯抽样方法

本文提出了一种使用贝叶斯模型不确定性的模块化强化学习方法，BOSS（Best of Sampled Set）。该方法通过从后验分布中抽取多个模型并乐观地选择行动来推动探索。我们展示了该算法在近乎最优的收益和高概率下的样本复杂度较低，远低于后验分布在学习过程中收敛的速度。我们示范了BOSS与一种横跨状态的非参数模型配对，表明它的灵活性。

May, 2012

ABC强化学习

该论文介绍了一个基于ABC的简单通用框架，用于无似然贝叶斯强化学习，该算法主要利用先验分布，能够应用在基于详细模拟模型的领域，试验结果证实了该算法在LSPI比较中具有潜在优势，并引入了一个定理，证明了该算法是原则上可行的。

Mar, 2013

贝叶斯强化学习：一项调查

本文深入探讨贝叶斯方法在强化学习中的作用，讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点，概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法，并全面评估了贝叶斯 RL 算法及其理论和实证性质。

Sep, 2016

虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

本文提出了一种基于贝叶斯优化算法的方法，通过利用来自仿真的先验知识，自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略，从而减少实验次数和成本。

Mar, 2017

指纹策略优化的稳健强化学习

本文介绍了指纹策略优化算法 (FPO)，使用贝叶斯优化来发现最大化策略梯度方法每次迭代产生的改进的环境变量分布，可以有效地学习对重要罕见事件具有稳健性的策略。

May, 2018

离线强化学习的悲观Q学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023