Apr, 2023

基于模型的动态屏蔽技术,用于安全高效的多智能体强化学习

TL;DR该论文提出了一种基于模型的动态屏蔽(MBDS)方法来支持多智能体强化学习算法设计,同时在强化学习和部署阶段实现形式化安全性保证。该算法合成分布式屏蔽,可以在与每个 MARL 代理并行运行的情况下监视和纠正不安全行为,从而实现对多智能体复杂环境的有效监控,并具有强有力的安全性保证。