基于 Nash Deep Q 网络方法的大规模交通信号控制

Jan, 2023

基于 Nash Deep Q 网络方法的大规模交通信号控制

Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach

Yuli.Zhang, Shangbo.Wang, Ruiyuan.Jiang

TL;DR本文介绍了一种基于 nash equilibrium 的 off-policy nash deep Q-Network (OPNDQN) 算法，该算法克服了完全集中和多智能体强化学习方法的缺点，不仅可以在多个交叉口中找到纳什均衡，也能够解决多智能体 Markov 过程的不确定性问题。采用 SUMO 仿真器进行了广泛的实验，结果表明 OPNDQN 相对于现有的多智能体强化学习方法在平均排队长度、训练回报和平均等待时间方面具有显著优势。

Abstract

reinforcement learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic d

reinforcement learning traffic signal control multi-agent reinforcement learning nash equilibrium simulation of urban mobility simulator

发现论文，激发创造

交通信号控制的多智能体深度强化学习新方法

随着旅游需求的增加和城市交通状况的复杂化，采用多智能体深度强化学习 (MARL) 来控制交通信号成为热门话题。本文提出了一种基于智能体合作方案的 Friend-Deep Q-network (Friend-DQN) 方法，以用于城市网络中的多个交通信号控制，该方法可以减少状态 - 操作空间，从而加快收敛速度。通过使用 SUMO (城市交通仿真) 平台评估友好 DQN 模型的表现，并展示其相对于其他现有方法的可行性和优越性。

Jun, 2023

多智能体深度强化学习用于大规模交通信号控制

本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法，以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度，并在大型合成交通网格和摩纳哥城的大型实际交通网络下，通过模拟高峰流量动态，并将其与独立 A2C 和独立 Q-learning 算法进行比较，结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。

Mar, 2019

大规模网格交通网络区域信号控制的多智能体强化学习

本文提出了一种基于区域划分的交通信号控制方法，使用多智能体强化学习技术，利用基于交通网络分区的扩展分支决斗 Q 网络算法，解决方法众多、非稳定性问题和优化联合行动问题，提高了解决方案的鲁棒性。

Mar, 2023

城市交叉口智能交通信号控制的强化学习方法

本文基于强化学习方法提出一种针对城市交叉口交通信号控制的新模型，采用神经网络作为 Q 函数的近似器进行复杂的信号控制，使用开放源代码的交通模拟器 SUMO 进行实验，结果表明该模型能够显著降低排队长度和等待时间，与基准方法相比具有更好的收敛性和泛化性能。

May, 2019

使用深度强化学习代理控制交通信号

提出了一种交通信号控制系统，利用现代深度强化学习方法构建适应性交通信号控制器，通过对作为输入的交通密集信息进行 Q-learning 训练并使用经验回放，与一种单隐藏层神经网络通讯信号控制器相比，实现了平均累计延迟减少 82％，平均队列长度减少 66％，平均旅行时间减少 20％。

Nov, 2016

提高大规模交通信号控制的泛化能力和稳健性

本研究探讨了使用分布式强化学习方法控制交通信号灯的鲁棒性和泛化能力，提出了一种组合使用分布式和标准强化学习的策略集成方法，并使用隐式分位点网络（Implicit Quantile Networks）进行建模，在缺失的数据和不同的交通网络结构下取得了优秀的控制效果。

Jun, 2023

强化学习的红绿灯控制

本研究提出一种实时交通信号灯控制方法，使用深度 Q 学习，并结合奖励函数，考虑排队长度、延迟、旅行时间和吞吐量，通过根据当前交通状况动态决定相位变化。通过使用合成和实际交通流数据在中国杭州的一个路口进行验证，结果表明与传统的固定信号计划相比，该方法显著改善了车辆等待时间（57.1% 至 100%）、排队长度（40.9% 至 100%）和总行程时间（16.8% 至 68.0%）。

Aug, 2023

多智能体图强化学习中的学习分散式交通信号控制器

本文研究智能城市中的交通信号优化控制问题，通过多智能体强化学习的新分散控制架构和图学习算法，提出了一种新的去中心化控制策略，增强了环境可观测性以抓取交通信号的时空关联性，实验证明该方案优于现有的分散算法。

Nov, 2023

用于路面交通管制的离线强化学习技术

本研究基于批量强化学习的方法，运用基于惩罚项的自适应奖励方式在普通的循环交通信号控制策略下，构建出一个马尔可夫决策过程（MDP）的学习框架，不仅提高了对于不同分布情境的管理优化，还显著提高了交通信号控制的效率。

Jan, 2022

交通信号控制的随机集成强化学习

该研究提出一种名为 RElight 的动态学习交通信号控制策略的模型，并结合随机集成学习方法以避免陷入局部最优结果。研究还引入了 UTD 比率以控制数据重用数量，以提高数据利用率并在合成数据和实际数据上进行了实验以证明该方法优于现有最优方法。

Mar, 2022