指纹策略优化的稳健强化学习

May, 2018

Contextual Policy Optimisation

Supratik Paul, Michael A. Osborne, Shimon Whiteson

TL;DR本文介绍了指纹策略优化算法 (FPO)，使用贝叶斯优化来发现最大化策略梯度方法每次迭代产生的改进的环境变量分布，可以有效地学习对重要罕见事件具有稳健性的策略。

Abstract

policy gradient methods have been successfully applied to a variety of reinforcement learning tasks. However, while learning in a simulator, these methods do not utilise the opportunity to improve learning by adjusting certain →

发现论文，激发创造

主动上下文熵搜索

这篇论文研究了使用贝叶斯优化中的熵搜索来进行主动上下文策略寻优，以便在少量试验中学习成功的行为。

Nov, 2015

交替优化与积分在鲁棒控制中的应用

本文提出一种名为ALOQ的方法，它结合了贝叶斯优化和贝叶斯积分来解决在考虑环境变量影响下找到鲁棒策略的问题，并且在实验中证明ALOQ比现有方法更高效和稳健。

May, 2016

基于贝叶斯优化的因素化情境策略搜索

提出基于贝叶斯优化的因式化上下文策略搜索方法来提高机器人学习数据效率，通过将通常考虑的文本刻画为目标类型上下文和环境类型上下文两个部分，从而实现经验在目标类型上下文中直接泛化。初步结果表明，该方法在模拟玩具问题上可以更快地泛化策略。

Dec, 2016

虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

本文提出了一种基于贝叶斯优化算法的方法，通过利用来自仿真的先验知识，自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略，从而减少实验次数和成本。

Mar, 2017

约束策略优化

提出了一种新的基于Constrained Policy Optimization (CPO)算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

基于Alpha分歧Dropout推断的贝叶斯策略梯度

本文提出一种方法，通过贝叶斯神经网络拟合值函数来估算分布，使用蒙特卡洛后验均值作为代替确定性网络的价值函数分布，提高了在连续控制MuJoCo模拟中使用策略梯度方法的稳定性和性能。

Dec, 2017

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

发现式策略优化

本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法DPO，通过在 Brax 环境下的实验验证，证明LPO和DPO算法在性能上处于最先进的位置，并具有在未知环境中的转移能力。

Oct, 2022

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络(BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023

通过自适应上下文感知策略在强化学习中实现动态概括

我们研究了如何将上下文信息引入行为学习以提高泛化性能，并引入了一个神经网络架构——决策适配器，该架构生成适配器模块的权重，并根据上下文信息调整智能体的行为。实验证明，与以往方法相比，决策适配器在几个环境中表现出更好的泛化性能，并且相对于一些替代方法，决策适配器对于无关变量的干扰更具鲁棒性。

Oct, 2023