指纹策略优化的稳健强化学习
本文提出一种名为ALOQ的方法,它结合了贝叶斯优化和贝叶斯积分来解决在考虑环境变量影响下找到鲁棒策略的问题,并且在实验中证明ALOQ比现有方法更高效和稳健。
May, 2016
提出基于贝叶斯优化的因式化上下文策略搜索方法来提高机器人学习数据效率,通过将通常考虑的文本刻画为目标类型上下文和环境类型上下文两个部分,从而实现经验在目标类型上下文中直接泛化。初步结果表明,该方法在模拟玩具问题上可以更快地泛化策略。
Dec, 2016
本文提出了一种基于贝叶斯优化算法的方法,通过利用来自仿真的先验知识,自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略,从而减少实验次数和成本。
Mar, 2017
提出了一种新的基于Constrained Policy Optimization (CPO)算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
May, 2017
本文提出一种方法,通过贝叶斯神经网络拟合值函数来估算分布,使用蒙特卡洛后验均值作为代替确定性网络的价值函数分布,提高了在连续控制MuJoCo模拟中使用策略梯度方法的稳定性和性能。
Dec, 2017
通过在仿真环境中使用基于高斯过程的先验知识,结合基于贝叶斯优化的策略搜索方法,提高在连续和离散控制环境中智能体行为的适应性,实验表明相比其他竞争基准,该方法的效果更好。
Feb, 2022
本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法DPO, 通过在 Brax 环境下的实验验证,证明LPO和DPO算法在性能上处于最先进的位置,并具有在未知环境中的转移能力。
Oct, 2022
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络(BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023
我们研究了如何将上下文信息引入行为学习以提高泛化性能,并引入了一个神经网络架构——决策适配器,该架构生成适配器模块的权重,并根据上下文信息调整智能体的行为。实验证明,与以往方法相比,决策适配器在几个环境中表现出更好的泛化性能,并且相对于一些替代方法,决策适配器对于无关变量的干扰更具鲁棒性。
Oct, 2023