动态模型预测屏蔽用于可证明安全的强化学习

May, 2024

动态模型预测屏蔽用于可证明安全的强化学习

Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning

Arko Banerjee, Kia Rahmani, Joydeep Biswas, Isil Dillig

TL;DR该研究介绍了动态模型预测屏蔽（DMPS）方法，在维持可证安全的同时优化强化学习目标，通过采用本地计划器来动态选择安全恢复动作，从而在短期进展和长期回报上实现最大化，证明了该方法能确保训练期间和训练后的安全性，并收敛于在实践中既高性能又安全的策略。

Abstract

Among approaches for provably safe reinforcement learning, Model Predictive Shielding (MPS) has proven effective at complex tasks in continuous, high-dimensional state spaces, by leveraging a backup policy to ensure safety when the learned policy attempts to take risky actions. However

model predictive shielding dynamic model predictive shielding provably safe reinforcement learning local planner recovery actions

发现论文，激发创造

MAMPS: 模型预测屏蔽在多智能体强化学习中的应用

提出了一种多智能体模型预测屏蔽算法 (MAMPS)，用于处理复杂的多智能体机器人任务，通过备选策略来保证该问题的安全性，并在多智能体仿真环境中进行了验证。

Oct, 2019

基于模型的动态屏蔽技术，用于安全高效的多智能体强化学习

该论文提出了一种基于模型的动态屏蔽（MBDS）方法来支持多智能体强化学习算法设计，同时在强化学习和部署阶段实现形式化安全性保证。该算法合成分布式屏蔽，可以在与每个 MARL 代理并行运行的情况下监视和纠正不安全行为，从而实现对多智能体复杂环境的有效监控，并具有强有力的安全性保证。

Apr, 2023

安全的 POMDP 在线规划方法之护盾技术

本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程（POMDPs）中的不确定性问题，其中通过计算和整合防护盾到在线规划算法（POMCP）中以确保安全性。实验结果表明，该方法在大型 POMDPs 中成功地保证了安全性，并对在线规划的运行时间几乎没有影响。

Sep, 2023

利用近似模型防护在连续环境中实现概率安全保证

本文介绍了在连续环境中实现安全强化学习的方法，使用了适用于连续环境的近似基于模型的屏蔽 (AMBS) 框架，并提出了两种新的惩罚技术来改进策略梯度的稳定收敛性。

Feb, 2024

近似基于模型的安全强化学习护盾

我们提出了近似基于模型的屏蔽算法，用于验证学习强化学习策略相对于给定安全约束的性能，与其他安全感知方法相比，在一组具有状态相关安全标签的 Atari 游戏上表现出卓越的性能。

Jul, 2023

深度模型预测优化

机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法，通过经验直接学习 MPC 优化算法的内环，针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估，DMPO 在计算预算下提高了性能，并且比基线的 MPC 算法在样本数量和端到端策略训练（MFRL）方面分别提高了 27% 和 19%。此外，由于 DMPO 需要更少的样本，它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时，DMPO 能够零 - shot 调适，同时仍然优于所有基线测试结果。

Oct, 2023

基于学习控制的线性模型预测安全认证

本文提出模型预测安全认证 (MPSC) 方案，用于保证学习型控制器的安全性，并拓展安全状态集合的方法是使用基于场景优化的数据设计过程。

Mar, 2018

混合系统的护盾强化学习

通过使用所谓的野蛮方法，本文提出了构建障碍盾牌的方法，通过系统地选择真实转移函数的样本，以提取基于分区的双人安全游戏的近似有限表示。尽管难以达到严格的安全保证，但我们通过原型实现和 UPPAAL STRATEGO 实验证明了强大的统计安全保证，进一步研究了障碍盾牌的合成对控制器学习前和后应用的影响，并在一系列案例研究中应用了我们的技术。

Aug, 2023

深入学习的安全多智能体强化学习中的模型预测控制

基于深度学习的模型预测控制方法被提出，以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题，该方法在解决多智能体系统的安全问题方面取得了显著进展。

Mar, 2024

通过概率逻辑屏障实现安全的强化学习

本文介绍了一种新的模型基础的安全增强学习技术 Probabilistic Logic Policy Gradient (PLPG)，该技术使用概率逻辑编程将逻辑安全约束建模为可微分函数，可以与任何策略梯度算法无缝集成，同时提供相同的收敛保证，实验结果表明 PLPG 相比其他最新的防护技术具有更高的安全性和更高的回报。

Mar, 2023