Feb, 2024

强化学习中策略和未知安全约束的并发学习

TL;DR我们提出了一种新的方法,同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数,通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集,将问题作为双层优化任务,通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化,并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性,始终产生高回报的安全强化学习策略。此外,我们的研究结果表明成功学习了 STL 安全约束参数,与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似,表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。