May, 2024

动态模型预测屏蔽用于可证明安全的强化学习

TL;DR该研究介绍了动态模型预测屏蔽(DMPS)方法,在维持可证安全的同时优化强化学习目标,通过采用本地计划器来动态选择安全恢复动作,从而在短期进展和长期回报上实现最大化,证明了该方法能确保训练期间和训练后的安全性,并收敛于在实践中既高性能又安全的策略。