May, 2024

自动驾驶中的安全多智能体强化学习与双层优化

TL;DR在自动驾驶应用中确保多智能体强化学习 (MARL) 的安全性是一个关键挑战。本研究提出了一种以随机均衡模型和双层优化为基础的安全 MARL 方法,并给出了收敛性分析。通过理论分析,我们开发了两种实用的算法:约束 Stackelberg Q 学习 (CSQ) 和约束 Stackelberg 多智能体深度确定性策略梯度 (CS-MADDPG),用于自动驾驶应用中的多智能体决策。实验结果表明,我们的算法 CSQ 和 CS-MADDPG 在奖励和安全性能方面优于 Bi-AC、MACPO 和 MAPPO-L 等强大的 MARL 对照算法。可在 {this https URL} 中找到演示和源代码。