基于模型的动态屏蔽技术，用于安全高效的多智能体强化学习

Apr, 2023

基于模型的动态屏蔽技术，用于安全高效的多智能体强化学习

Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning

Wenli Xiao, Yiwei Lyu, John Dolan

TL;DR该论文提出了一种基于模型的动态屏蔽（MBDS）方法来支持多智能体强化学习算法设计，同时在强化学习和部署阶段实现形式化安全性保证。该算法合成分布式屏蔽，可以在与每个 MARL 代理并行运行的情况下监视和纠正不安全行为，从而实现对多智能体复杂环境的有效监控，并具有强有力的安全性保证。

Abstract

multi-agent reinforcement learning (MARL) discovers policies that maximize reward but do not have safety guarantees during the learning and deployment phases. Although shielding with linear temporal logic (LTL) i

multi-agent reinforcement learning linear temporal logic dynamic shielding reactive systems formal safety guarantees

发现论文，激发创造

通过屏蔽实现安全的多智能体强化学习

本研究提出两种安全性保障方法，并对多智能体强化学习进行了实验验证。结果表明，这两种方法可以在不损害智能体学习质量的情况下保证其安全，其中，基于因式分解的屏蔽方法在智能体数量上更具可扩展性。

Jan, 2021

近似基于模型的安全强化学习护盾

我们提出了近似基于模型的屏蔽算法，用于验证学习强化学习策略相对于给定安全约束的性能，与其他安全感知方法相比，在一组具有状态相关安全标签的 Atari 游戏上表现出卓越的性能。

Jul, 2023

通过屏蔽技术实现安全强化学习

该论文介绍了一种基于时间逻辑表达的安全性要求，用反应系统来指导强化学习算法的政策优化过程，保证学习和执行阶段的安全性。实验表明该方法在多种场景下具有通用性。

Aug, 2017

离线多智能体强化学习与安全约束的扩散模型

最近在多智能体强化学习（MARL）的进展中，其应用已扩展到各种安全关键场景。然而，大多数方法专注于在线学习，在实际环境中部署时存在重大风险。为了解决这一挑战，我们引入了一个创新的框架，将扩散模型与 MARL 范式相结合。通过风险缓解来增强多智能体采取的动作的安全性，并建模协同行动。我们的框架基于分散执行（CTDE）架构中的集中式训练，扩展了用于预测轨迹生成的扩散模型。此外，我们还结合了一种专门的算法来确保操作安全性。我们在 DSRL 基准测试上评估了我们的模型，并进行了对比实验。实验结果表明，我们的模型不仅符合严格的安全约束，而且在性能上优于现有的方法。这凸显了我们的方法在推动 MARL 在实际应用中的安全性和效能方面的潜力。

Jun, 2024

动态模型预测屏蔽用于可证明安全的强化学习

该研究介绍了动态模型预测屏蔽（DMPS）方法，在维持可证安全的同时优化强化学习目标，通过采用本地计划器来动态选择安全恢复动作，从而在短期进展和长期回报上实现最大化，证明了该方法能确保训练期间和训练后的安全性，并收敛于在实践中既高性能又安全的策略。

May, 2024

混合系统的护盾强化学习

通过使用所谓的野蛮方法，本文提出了构建障碍盾牌的方法，通过系统地选择真实转移函数的样本，以提取基于分区的双人安全游戏的近似有限表示。尽管难以达到严格的安全保证，但我们通过原型实现和 UPPAAL STRATEGO 实验证明了强大的统计安全保证，进一步研究了障碍盾牌的合成对控制器学习前和后应用的影响，并在一系列案例研究中应用了我们的技术。

Aug, 2023

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

LTL 模理论的屏蔽综合

近年来，机器学习（ML）模型在各个领域取得了显著的成功，然而这些模型也倾向于表现出不安全的行为，这限制了它们在安全关键系统中的部署。为了解决这个问题，许多研究集中在开发能够保证给定 ML 模型的安全行为的方法。其中一个突出的例子是屏蔽，它包含一个外部组件（“屏蔽器”）用于阻止不需要的行为。尽管取得了相当大的进展，但屏蔽仍然存在一个主要问题：它目前只适用于命题逻辑（例如 LTL）编码的属性，对于更丰富的逻辑来说是不合适的。因此，这限制了屏蔽在许多真实世界系统中的广泛适用性。在这项工作中，我们填补了这个空白，并将屏蔽扩展到 LTL 模理论，借助最近在反应合成模理论方面的进展。这使我们能够开发一种在这种更具表达性的逻辑中生成符合复杂安全规范的屏蔽器的新方法。我们评估了我们的屏蔽器，并展示了它们处理具有时间动态的丰富数据的能力。据我们所知，这是第一个为这种表达方式合成屏蔽器的方法。

Jun, 2024

深入学习的安全多智能体强化学习中的模型预测控制

基于深度学习的模型预测控制方法被提出，以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题，该方法在解决多智能体系统的安全问题方面取得了显著进展。

Mar, 2024

复杂航天器任务的屏蔽深度强化学习

通过使用线性时态逻辑（LTL）来形式化航天器任务和安全需求，以构建奖励函数和确保概率保障的盾牌，本论文研究了自主航天器控制和 SDRL 框架下的任务定义、安全性以及奖励结构的灵活性。

Mar, 2024