使用鲁棒性模型预测控制的安全强化学习
基于深度学习的模型预测控制方法被提出,以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题,该方法在解决多智能体系统的安全问题方面取得了显著进展。
Mar, 2024
本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题,并开发了一种融合了这两种方法的混合控制方法,其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度,并证明了我们的控制器在短时间内能够实现稳定步态,具有实时操作的能力。
Jul, 2023
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本研究介绍了一种学习基础的模型预测控制 (LBMPC) 方案,在提高系统性能的同时提供稳健性的确定性保证。该方案利用统计识别工具识别系统的更丰富模型,通过维护两个模型,可以在一个优化框架中将安全性和性能隔离。LBMPC 通过选择最小化成本的输入来提高性能,并通过检查模糊模型稳定性来确保安全性和鲁棒性。此外,我们证明如果系统充分兴奋,则 LBMPC 控制行动以概率收敛为使用真实动力学计算的 MPC 的行动。
Jul, 2011
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功,我们提议通过元强化学习学习一个优化器来更新控制器,该优化器不需要专家演示,并且在未知控制任务中可以实现快速适应。
Jan, 2024
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023