基于概率模型的策略搜索学习鲁棒控制器

ICLROct, 2021

基于概率模型的策略搜索学习鲁棒控制器

Learning Robust Controllers Via Probabilistic Model-Based Policy Search

Valentin Charvet, Bjørn Sand Jensen, Roderick Murray-Smith

TL;DR通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Abstract

model-based reinforcement learning estimates the true environment through a world model in order to approximate the optimal policy. This f

model-based reinforcement learning world model optimal policy likelihood noise gaussian process

发现论文，激发创造

基于概率模型的强化学习合成神经网络控制器

本研究提出了一种基于模型的强化学习算法，通过训练具有可校准不确定性的神经网络动力学模型，实现对机器人系统控制器的快速学习，并在多项基准任务中验证了该算法的高效性和可扩展性，包括针对六足水下自主机器人的运动控制器学习。

Mar, 2018

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

基于模型的残差策略学习及其在天线控制中的应用

通过一种基于模型的强化学习方法，优化了控制实际系统的非可微控制器和基于规则的策略，取得了良好的样本效率。实验结果表明该方法在多种摆臂机器人控制任务中明显优于现有的基于模型的方法，并成功应用于电信领域。

Nov, 2022

在线非随机模型无关强化学习

该研究探讨了针对动态或敌对环境的强化学习算法，并引入基于干扰信号的新型政策以提高适应性和鲁棒性，并在标准 RL 基准测试中进行了评估并证明了改进的鲁棒性。

May, 2023

残差策略学习

本文介绍了一种简单的方法 —— 残差策略学习（Residual Policy Learning，RPL），用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时，研究了 RPL 的应用，这些任务中存在良好但不完美的控制器。与从头开始的强化学习相比，RPL 在这些任务中可以获得显著的改进。在六个挑战性的 MuJoCo 任务中，我们将初始控制器设置为手动设计的策略和具有已知或学习转移模型的模型预测控制器。通过将学习与控制算法相结合，RPL 可以执行长时程、稀疏奖励任务，而仅使用强化学习则失败。此外，我们发现 RPL 在改善初始控制器方面一致且显著。我们认为 RPL 是结合深度强化学习和机器人控制互补优势的一种有前途的方法，推动了两者独立实现的边界。

Dec, 2018

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022