异步多智能体强化学习在减少巴士拥挤中的应用

May, 2021

异步多智能体强化学习在减少巴士拥挤中的应用

Reducing Bus Bunching with Asynchronous Multi-Agent Reinforcement Learning

Jiawei Wang, Lijun Sun

TL;DR本研究通过异步多智能体强化学习技术，引入图注意力神经网络并应用智能卡数据，实现公交车队控制，结果表明该模型优于传统控制方法和现有的多智能体强化学习方法。

Abstract

The bus system is a critical component of sustainable urban transportation. However, due to the significant uncertainties in passenger demand and traffic conditions, bus operation is unstable in nature and bus bunching has become a common phenomenon that undermines the reliability and efficiency of bus services. Despite recent advances in →

发现论文，激发创造

多智能体强化学习的异步演员-评论家算法

该论文提出一种多代理演员-评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

SocialLight：面向网络范围交通信号控制的分布式协作学习

提出了一种名为SocialLight的基于多智能体强化学习和分布式学习的交通信号控制方法，通过估计个体对本地邻域的边际贡献来学习交通控制策略，解决了传统方法中合作性不足和无法扩展等问题，并经过在两个交通模拟器上的标准基准测试，结果表明SocialLight具有更好的可扩展性和更好的性能。

Apr, 2023

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

通过协作解决城市拥堵问题：基于异构 GNN 的 MARL 用于协调编队和交通信号控制

本研究提出了一种基于异构图多智能体强化学习和交通理论的创新方法，用于实时联合控制信号控制和车队编队，以缓解交通拥堵。

Oct, 2023

RL-MSA：一种基于强化学习的多线路公交调度方法

多线路公交车调度问题被建模为马尔可夫决策过程，并提出了基于强化学习的多线路公交车调度方法，该方法包括离线阶段和在线阶段，通过整合拖车决策简化学习问题，并通过时间窗口机制进行拖车决策，实验结果表明操作成本较少的同时能保证服务质量。

Mar, 2024

去中心化合作驾驶的单智能体演员评论算法

通过引入一种新型的非对称的演员-评论家模型，采用单智能体强化学习来学习分散协作驾驶策略，利用掩码的注意神经网络处理实际交通流的动态特性和部分可观测性，我们的模型在不同交通情景中表现出提高道路系统中各个瓶颈位置交通流的巨大潜力，并且通过探索自动驾驶车辆遵守交通规则的保守驾驶行为所带来的挑战，实验证明我们提出的协作策略可以在不影响安全性的情况下缓解潜在的交通减速。

Mar, 2024

基于全局损失的自主移动即需车队控制的多智能体软演员评论

我们研究了自主移动出行系统的利润最大化操作员的顺序决策问题。通过使用多智能体软演员-评论家算法结合加权二分图匹配，我们优化了中央操作员的车辆调度策略，提出了一种新的基于车辆的算法体系结构，并调整了评论家的损失函数以恰当地考虑全局行动。此外，我们还扩展了算法以包含重新平衡功能。通过数值实验证明，我们的方法在调度方面的性能比最先进的基准提高了多达12.9%，在集成重新平衡方面提高了多达38.9%。

Apr, 2024

基于时空超图的多智能体强化学习交通信号控制

提出了一种新颖的交通信号控制系统框架，通过与多个相邻的边缘计算服务器协作收集道路网络上的交通信息，采用多智能体软actor-critic强化学习算法结合超图学习，以实现交通信号控制的智能化，优化交通流量，并且能够捕捉多个交叉口之间的复杂时空相关性，实现更智能、更具响应性的城市交通管理解决方案。

Apr, 2024

基于深度强化学习和连接车辆的自适应交通信号优先控制

本研究旨在解决传统自适应交通信号优先算法在处理复杂非线性目标函数时的局限性，提出了一种基于模型的强化学习交通控制方法。通过在微观仿真环境中应用连接车辆数据，研究开发了一种事件驱动的交通信号优先控制RL代理，实现了公交车约21%的行程时间缩短，并对一般交通影响微小，具有重要的实用价值。

Jul, 2024

异步多智能体强化学习的协同路径规划

本文针对多源-目的地最短路径问题（MSD-SPP）进行研究，旨在最小化所有最短路径的平均旅行时间。提出的异步MARL框架通过对道路网络进行分区和引入新的轨迹收集机制，有效解决了路径规划的效率和异步决策问题，实验结果表明该方法在合成和真实道路网络上均优于现有的规划方法。

Sep, 2024