多智能体路由价值迭代网络

ICMLJul, 2020

Multi-Agent Routing Value Iteration Network

Quinlan Sykora, Mengye Ren, Raquel Urtasun

TL;DR本文提出了一种多智能体坐标线路图的图神经网络模型，利用学习价值迭代在稀疏相互连接图中执行坐标线路图，并通过通信模块使智能体在线协调并更有效地适应变化，可以应用于自主车辆中实现实时映射和车队管理等。

Abstract

In this paper we tackle the problem of routing multiple agents in a coordinated manner. This is a complex problem that has a wide range of applications in fleet management to achieve a common goal, such as mapping from a swarm of robots and ride sharing. Traditional methods are typical

multi-agent routing graph neural network communication module autonomous vehicles fleet management

发现论文，激发创造

未被映射环境中多车路径规划的分布式在线发布

本文提出了一种完全分布式、在线和可扩展的增强学习算法，用于解决多车辆路径规划问题，代理定期聚集在本地簇中，独立地在每个簇中应用多智能体扩展方案，动态地在代理之间协调任务并共享其局部信息。通过较大规模的模拟，证明了分布式滚动算法比贪婪基础策略具有近两倍的成本优势。

May, 2023

公平合作的车辆路径规划：深度多智能体强化学习方法

通过深度多智能体强化学习，我们将合作车辆路径规划问题建模为一个联盟博弈，并在没有对于特征函数的访问权限的情况下解决了路线分配问题和利润分配问题，取得了运行时间减少 88% 的成果。

Oct, 2023

基于图注意力多智能体强化学习的分组路由

本文提出了一种基于强化学习（RL）的无模型和数据驱动路径选择策略，结合图神经网络（GNN）的多智能体 RL 框架，探索了中央化，联合和合作学习三种部署范式，模拟结果表明该算法在分组传输延迟和负载方面优于一些现有的基准算法。

Jul, 2021

信号路网中交通信号控制和车辆路径的多智能体深度强化学习的联合优化

为了缓解城市交通拥堵问题并提高交通效率，本文提出了一种联合优化方法，使用多智能体深度强化学习（MADRL）来进行交通信号控制和车辆路由的信号化道路网络。通过建立代理之间的联系和共享观察和奖励，促进了代理之间的交互和合作，增强了个体训练。数值实验表明，我们的信号控制和车辆路由的集成方案在提高交通效率方面优于单独控制信号时间或车辆路线。

Oct, 2023

电子商务中高效履约和路由策略的多智能体学习

该研究提出了一个集成算法框架，用于在电子商务中最小化产品送货成本（成本对服务或 C2S）。通过结合图神经网络和强化学习来训练节点选择和车辆路径规划代理，我们的实验结果表明，这种算法流程胜过纯启发式策略。

Nov, 2023

面向成本和时延敏感的虚拟网络功能部署和路由的多智能体深度强化学习

本文提出了一种基于多智能体深度强化学习的有效而新颖的方法，用于解决联合虚拟网络功能（VNF）部署和路由问题，该问题涉及多个不同需求的服务请求同时交付，并通过其延迟和成本敏感因素反映服务请求的不同需求，提出了基于参数移植的模型重新训练方法来处理网络拓扑发生更改的情况。

Jun, 2022

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024

综合接入回传网络的多智能体强化学习网络路由

本研究主要探讨无线路由方案的优化，特别关注于集成接入回程（IAB）网络，旨在通过采取多智能体强化学习和马尔可夫决策过程等方法，最大化分组到达比率同时最小化网络延迟，并提升网络效率。在本研究中，我们提出了一种称为关系型优势演员评论家（Relational A2C）的算法，并对其进行了三种不同的训练范式。研究结果表明，相较于其他强化学习算法，该算法具有更好的性能和更低的个体自私行为，为 IAB 网络的路由策略优化提供了新的思路。

May, 2023

多智能体路径规划与网络流

通过将基于图的多智能体路径规划与网络流问题相连接，本文研究表明前者可以归纳为后者，进而实现了组合网络流算法及一般线性规划技术应用于基于图的多智能体路径规划问题。此外，在研究中我们还证明了当目标具有排列不变性的情况下，问题仅有一个可行解路径集，该集合具有不超过 $n+V-1$ 的最大完成时间，并提供了一个完整的算法以在 $O (nVE)$ 时间内找到这样的解决方案。最后，我们研究了可行解的时间和距离优化，表明它们具有成对帕累托优化结构，并提供了优化这两个实际目标的有效算法。

Apr, 2012

用深度强化学习实现多机器人社交导航的注意力图

通过结合感知、规划和预测，本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法，使用基于图的实体交互表示，并利用图神经网络和注意机制进行建模。实验证明，该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习，并实现了高效的多智能体隐式协调。

Jan, 2024