该研究介绍了动态模型预测屏蔽(DMPS)方法,在维持可证安全的同时优化强化学习目标,通过采用本地计划器来动态选择安全恢复动作,从而在短期进展和长期回报上实现最大化,证明了该方法能确保训练期间和训练后的安全性,并收敛于在实践中既高性能又安全的策略。
May, 2024
我们提出了近似基于模型的屏蔽算法,用于验证学习强化学习策略相对于给定安全约束的性能,与其他安全感知方法相比,在一组具有状态相关安全标签的 Atari 游戏上表现出卓越的性能。
Jul, 2023
本研究提出两种安全性保障方法,并对多智能体强化学习进行了实验验证。结果表明,这两种方法可以在不损害智能体学习质量的情况下保证其安全,其中,基于因式分解的屏蔽方法在智能体数量上更具可扩展性。
Jan, 2021
本文介绍了在连续环境中实现安全强化学习的方法,使用了适用于连续环境的近似基于模型的屏蔽 (AMBS) 框架,并提出了两种新的惩罚技术来改进策略梯度的稳定收敛性。
Feb, 2024
本文提出了一种名为集成模型预测安全认证的新算法,该算法结合了基于模型的深度强化学习和基于管道的模型预测控制,通过计划对学习代理所采取的行动进行修正,使安全约束违规最小化。我们的方法旨在通过仅需要由安全控制器生成的离线数据,尽量减少对实际系统的先验知识。我们的结果表明,与可比较的强化学习方法相比,我们可以实现显著减少的约束违规。
该论文提出了一种基于模型的动态屏蔽(MBDS)方法来支持多智能体强化学习算法设计,同时在强化学习和部署阶段实现形式化安全性保证。该算法合成分布式屏蔽,可以在与每个 MARL 代理并行运行的情况下监视和纠正不安全行为,从而实现对多智能体复杂环境的有效监控,并具有强有力的安全性保证。
Apr, 2023
本文提出了一种将强化学习与模型预测控制相结合的方法,以充分利用两者的优势,并获得既具有最优性又安全的控制器。在模拟中,我们通过数值实验证明了该方法的有效性。
Jun, 2019
基于深度学习的模型预测控制方法被提出,以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题,该方法在解决多智能体系统的安全问题方面取得了显著进展。
Mar, 2024
在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划的运行时间几乎没有影响。
Sep, 2023