关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究

Jan, 2023

关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究

On Multi-Agent Deep Deterministic Policy Gradients and their Explainability for SMARTS Environment

Ansh Mittal, Aditya Malte

TL;DR本文主要研究 Autonomous Driving 中 Multi-Agent RL 或 MARL 的问题，提出了基于 on-policy 和 off-policy RL 方法的 MAPPO 和 MADDPG 方法，并结合 SMARTS 环境中的路标讨论其可解释性和潜在改进领域。

Abstract

multi-agent rl or MARL is one of the complex problems in autonomous driving literature that hampers the release of fully-autonomous vehicles today. Several simulators have been in iteration after their inception

multi-agent rl autonomous driving smarts mappo maddpg

发现论文，激发创造

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

多智能体强化学习的策略解释

本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段：关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中，表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。

Apr, 2022

SMARTS: 自主驾驶的可扩展多智能体强化学习训练平台

本文介绍了一种名为 SMARTS 的智能驾驶多智能体模拟平台，可以生成多样且熟练的驾驶交互，并在多智能体交互方面进行了深入、广泛的研究，以解决自主驾驶中如何与多种路用户进行有效交互的问题。

Oct, 2020

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

多智能体连接自主驾驶的深度强化学习

该论文提出了使用部分可观测马尔可夫博弈来构建具有现实情况的无人驾驶问题，并提供了 MACAD-Gym 平台来进一步研究和开发基于深度强化学习的集成感知、计划和控制算法。

Nov, 2019

利用协调策略优化学习模拟自驱颗粒系统

本文中，我们通过引入社会心理学原则，提出了一种新的 MARL 方法 Coordinated Policy Optimization（CoPO），用于协调自驱粒子系统中多个代理的行为，并最大化个体目标，实验结果表明，与 MARL 基线相比，CoPO 可以在各种度量方面实现优越的性能。

Oct, 2021

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

竞争自学时学习新兴行为的 Stackelberg 博弈

使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法，优化自我进化过程中的智能体沟通模式，提高多智能体学习的有效性和鲁棒性。

May, 2023

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

多智能体强化学习在海上操作技术网络安全中的应用

该论文展示了自主网络防御在工业控制系统中的潜力，并提供了一个基线环境，进一步探索多智能体强化学习在此问题领域的应用。

Jan, 2024