自主驾驶多智能体训练的新方法

Sep, 2022

A New Approach to Training Multiple Cooperative Agents for Autonomous Driving

Ruiyang Yang, Siheng Li, Beihong Jin

TL;DR本论文提出了一种名为 Lepus 的全新方法，用于通过纯合作训练多个代理进行安全和协作控制的自主驾驶复杂场景中的控制。该方法通过共享政策网络的共享参数和多个代理的分享奖励功能来训练多个代理，从而提高了它的协作决策能力和汽车驾驶的稳定性。此外，Lepus 通过结合随机网络和蒸馏网络从专家轨迹中学习近似奖励函数以缓解稀疏奖励问题。大量实验结果表明，Lepus 训练的多个代理可以在同时驾驶时尽可能避免碰撞，并在稳定性方面胜过 DDPG-FDE、PSDDPG、MADDPG 和 MAGAIL（DDPG）的其他四种方法。

Abstract

Training multiple agents to perform safe and cooperative control in the complex scenarios of autonomous driving has been a challenge. For

autonomous driving multiple agents cooperative control policy networks adversarial process

发现论文，激发创造

基于 AutoDRIVE 生态系统的合作与竞争自主车辆多智能体深度强化学习

该论文介绍了一种用于自主车辆内部具有合作和竞争行为的模块化且可并行化的多智能体深度强化学习框架。通过使用 AutoDRIVE 生态系统来培养和部署多智能体强化学习策略，并利用具有独特特性和能力的两个缩小比例的自主车辆平台 Nigel 和 F1TENTH 来开发具有物理准确性和图形逼真性的数字孪生模型。

Sep, 2023

基于多智能体深度强化学习的可扩展去中心化协同车队

通过车辆之间的协作自主驾驶和车辆间通信，以车队行驶为应用场景，在城市环境中使用深度强化学习和物理模拟技术，实现了交通流量和安全的提升。

Dec, 2023

多智能体连接自主驾驶的深度强化学习

该论文提出了使用部分可观测马尔可夫博弈来构建具有现实情况的无人驾驶问题，并提供了 MACAD-Gym 平台来进一步研究和开发基于深度强化学习的集成感知、计划和控制算法。

Nov, 2019

关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究

本文主要研究 Autonomous Driving 中 Multi-Agent RL 或 MARL 的问题，提出了基于 on-policy 和 off-policy RL 方法的 MAPPO 和 MADDPG 方法，并结合 SMARTS 环境中的路标讨论其可解释性和潜在改进领域。

Jan, 2023

自主车辆的去中心化协作感知：学习尊重未知

本文提出了一种去中心化的协作感知方法，基于 Deep Reinforcement Learning 算法，学习一种反向通讯策略，只请求未知信息，最终实现交通物品的最大化感知和最小化信息交流成本的平衡调整。

Dec, 2022

AgentsCoDriver：大型语言模型赋能的协作驾驶与终身学习

通过大型语言模型开发一种名为 AgentsCoDriver 的框架，实现多车辆协同驾驶，解决了当前的自主驾驶系统在解释性、泛化性、持续学习以及与其他车辆的协商与合作方面的不足。

Apr, 2024

在对抗多智体系统中学习合作行为

本文介绍了一个基于虚拟多智能体平台的扩展，称为 TripleSumo，用于研究连续动作空间中多智能体的合作行为，在对抗性环境中进行物理接触。我们对两个代理 Bug 和 Ant 与 Spider 进行合作的情景进行了研究，并首次提出加入 Bug 的强化学习算法 DDPG，通过混合奖励结构定量评估了合作行为。

Feb, 2023

多智能体生成对抗互动式自我模仿学习对 AUV 编队控制与避障的应用

本文介绍了利用 MAGAISIL（多智能体生成对抗交互自我模仿学习）算法控制多自主水下机器人（简称多 - AUV），通过逐步替换由人类教练选择的次优演示路径，使得 AUV 能够学习策略，实验结果表明通过 MAGAISIL 训练的 AUV 可以超越次优专家演示，并达到接近或优于具有最佳演示的 MAGAIL 的性能，同时证明 AUV 通过 MAGAISIL 学习的策略可以适应复杂和不同的任务，与从最佳演示中学习的 MAGAIL 相当。

Jan, 2024

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

多机器人社交感知协作规划在行人环境中的多智能体强化学习

本文提出了一种基于离线多智能体强化学习（MARL）的多机器人社交感知和高效协同规划方法，使用时间 - 空间图（TSG）进行社交编码，引入 K 步先见奖励设置，并改进了传统的集中式批判者网络，从而在多群组实验中验证了该方法的有效性。

Nov, 2022