自动驾驶中的安全多智能体强化学习与双层优化

May, 2024

自动驾驶中的安全多智能体强化学习与双层优化

Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving

Zhi Zheng, Shangding Gu

TL;DR在自动驾驶应用中确保多智能体强化学习 (MARL) 的安全性是一个关键挑战。本研究提出了一种以随机均衡模型和双层优化为基础的安全 MARL 方法，并给出了收敛性分析。通过理论分析，我们开发了两种实用的算法：约束 Stackelberg Q 学习 (CSQ) 和约束 Stackelberg 多智能体深度确定性策略梯度 (CS-MADDPG)，用于自动驾驶应用中的多智能体决策。实验结果表明，我们的算法 CSQ 和 CS-MADDPG 在奖励和安全性能方面优于 Bi-AC、MACPO 和 MAPPO-L 等强大的 MARL 对照算法。可在 {this https URL} 中找到演示和源代码。

Abstract

Ensuring safety in marl, particularly when deploying it in real-world applications such as autonomous driving, emerges as a critical chall

safety marl autonomous driving stackelberg model convergence

发现论文，激发创造

深入学习的安全多智能体强化学习中的模型预测控制

基于深度学习的模型预测控制方法被提出，以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题，该方法在解决多智能体系统的安全问题方面取得了显著进展。

Mar, 2024

合作多智能体强化学习鲁棒性综合测试

提出了一种用于 c-MARL 算法的鲁棒性测试框架 MARLSafe，此框架能够全面从三个方面（状态鲁棒性、行动鲁棒性和奖励鲁棒性）进行测试，以及多方面提出了用于 c-MARL 攻击的鲁棒性测试算法。实验证明，许多最新的 c-MARL 算法在所有方面的鲁棒性都较低，因此迫切需要测试和提高 c-MARL 算法的鲁棒性。

Apr, 2022

具有空间 - 时间感知能力的安全多智能体强化学习：应对复杂场景下的联网自动驾驶车辆

本文提出了一种使用多智能体强化学习框架 (MARL) 的安全保护平行体系结构来提高连接和自主车辆 (CAV) 系统在复杂驾驶情况下的安全性和效率，并使用 Graph Convolutional Network (GCN)-Transformer 作为空间 - 时间编码器，设立安全屏障并对 CAV 进行安全检查，实验结果显示该方法大大提高了系统安全性和效率。

Oct, 2022

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

通过屏蔽实现安全的多智能体强化学习

本研究提出两种安全性保障方法，并对多智能体强化学习进行了实验验证。结果表明，这两种方法可以在不损害智能体学习质量的情况下保证其安全，其中，基于因式分解的屏蔽方法在智能体数量上更具可扩展性。

Jan, 2021

有限制马尔可夫潜在博弈中可证明学习纳什策略

本文提出了一种名为 CA-CMPG 的算法，它可以通过 Coordinate-Ascent 方式收敛到表格型、有限时间段的 CMPGs 的 Nash 策略，并提供了第一个适用于 CMPGs 的样本复杂度边界和安全探索的额外假设。

Jun, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

竞争自学时学习新兴行为的 Stackelberg 博弈

使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法，优化自我进化过程中的智能体沟通模式，提高多智能体学习的有效性和鲁棒性。

May, 2023

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Feb, 2024