May, 2024

隐式安全集算法的可证明安全强化学习

TL;DR深度强化学习在许多连续控制任务中表现出卓越性能,但其真实世界应用的一个重要障碍是缺乏安全保证。本文提出了一种无模型安全控制算法 —— 隐式安全集算法,用于合成确保训练过程中可证明安全性的 DRL 代理的安全保障。该算法通过查询黑盒动力函数(例如数字孪生模拟器)仅合成安全指标(屏障凭证)和随后的安全控制策略。此外,我们在连续时间和离散时间系统上理论上证明了隐式安全集算法保证有限时间收敛到安全集和正向不变性。我们在最先进的 Safety Gym 基准测试中验证了所提出的算法,在实现与最先进的安全 DRL 方法相比,它实现了零安全违规,同时达到了 95% ± 9% 的累积奖励,并且该算法对高维系统并行计算具有良好的扩展性。