多智能体路由价值迭代网络
本文提出了一种完全分布式、在线和可扩展的增强学习算法,用于解决多车辆路径规划问题,代理定期聚集在本地簇中,独立地在每个簇中应用多智能体扩展方案,动态地在代理之间协调任务并共享其局部信息。通过较大规模的模拟,证明了分布式滚动算法比贪婪基础策略具有近两倍的成本优势。
May, 2023
通过深度多智能体强化学习,我们将合作车辆路径规划问题建模为一个联盟博弈,并在没有对于特征函数的访问权限的情况下解决了路线分配问题和利润分配问题,取得了运行时间减少 88% 的成果。
Oct, 2023
本文提出了一种基于强化学习(RL)的无模型和数据驱动路径选择策略,结合图神经网络(GNN)的多智能体 RL 框架,探索了中央化,联合和合作学习三种部署范式,模拟结果表明该算法在分组传输延迟和负载方面优于一些现有的基准算法。
Jul, 2021
为了缓解城市交通拥堵问题并提高交通效率,本文提出了一种联合优化方法,使用多智能体深度强化学习(MADRL)来进行交通信号控制和车辆路由的信号化道路网络。通过建立代理之间的联系和共享观察和奖励,促进了代理之间的交互和合作,增强了个体训练。数值实验表明,我们的信号控制和车辆路由的集成方案在提高交通效率方面优于单独控制信号时间或车辆路线。
Oct, 2023
该研究提出了一个集成算法框架,用于在电子商务中最小化产品送货成本(成本对服务或 C2S)。通过结合图神经网络和强化学习来训练节点选择和车辆路径规划代理,我们的实验结果表明,这种算法流程胜过纯启发式策略。
Nov, 2023
本文提出了一种基于多智能体深度强化学习的有效而新颖的方法,用于解决联合虚拟网络功能(VNF)部署和路由问题,该问题涉及多个不同需求的服务请求同时交付,并通过其延迟和成本敏感因素反映服务请求的不同需求,提出了基于参数移植的模型重新训练方法来处理网络拓扑发生更改的情况。
Jun, 2022
为了提高 RL 算法的训练效率,本研究基于高速公路图的观察,提出了一种新颖的图结构,用于模拟状态转换,将 RL 训练在早期阶段显著加速,并在性能上优于其他无模型和带模型的 RL 算法。同时,基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。
May, 2024
本研究主要探讨无线路由方案的优化,特别关注于集成接入回程(IAB)网络,旨在通过采取多智能体强化学习和马尔可夫决策过程等方法,最大化分组到达比率同时最小化网络延迟,并提升网络效率。在本研究中,我们提出了一种称为关系型优势演员评论家(Relational A2C)的算法,并对其进行了三种不同的训练范式。研究结果表明,相较于其他强化学习算法,该算法具有更好的性能和更低的个体自私行为,为 IAB 网络的路由策略优化提供了新的思路。
May, 2023
通过将基于图的多智能体路径规划与网络流问题相连接,本文研究表明前者可以归纳为后者,进而实现了组合网络流算法及一般线性规划技术应用于基于图的多智能体路径规划问题。此外,在研究中我们还证明了当目标具有排列不变性的情况下,问题仅有一个可行解路径集,该集合具有不超过 $n+V-1$ 的最大完成时间,并提供了一个完整的算法以在 $O (nVE)$ 时间内找到这样的解决方案。最后,我们研究了可行解的时间和距离优化,表明它们具有成对帕累托优化结构,并提供了优化这两个实际目标的有效算法。
Apr, 2012
通过结合感知、规划和预测,本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法,使用基于图的实体交互表示,并利用图神经网络和注意机制进行建模。实验证明,该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习,并实现了高效的多智能体隐式协调。
Jan, 2024