深度确定性策略梯度用于城市交通信号灯控制

Mar, 2017

深度确定性策略梯度用于城市交通信号灯控制

Deep Deterministic Policy Gradient for Urban Traffic Light Control

Noe Casas

TL;DR本文旨在提出一种使用深度学习 DDPG 算法来优化交通信号灯时序的方法，以应对交通数据信息量大的情况，并在简单和复杂的交通网络测试中获得了良好结果。

Abstract

traffic light timing optimization is still an active line of research despite the wealth of scientific literature on the topic, and the problem remains unsolved for any non-toy scenario. One of the key issues wit

traffic light timing optimization traffic data deep learning ddpg algorithm

发现论文，激发创造

基于深度策略梯度和价值函数的强化学习交通信号灯控制

本文的研究探究了在使用深度神经网络架构和强化学习技术组合的方法来解决高维状态和行为空间下的复杂控制问题方面的最新进展，并构建了两种基于强化学习的算法：基于策略梯度和基于值函数的代理，以预测交通路口最佳的信号灯状态，通过 SUMO 交通模拟器实验表明，本方法在训练过程中没有出现不稳定问题。

Apr, 2017

智能交通系统中的交通灯深度强化学习控制

本篇论文通过研究深度强化学习在交通灯控制问题中的应用，证明在格网路网中智能行驶的 “绿波” 策略自然而然地出现，并且优于传统方法，这为提高交通效率提供了途径。

Feb, 2023

交通信号控制的协作强化学习

该论文提出了一种协作多目标多智能体深度再强化学习算法（COMMA-DDPG），用于交通信号控制的全局优化和减少延迟等待时间。该算法在真实的亚洲交通数据集上进行了评估，相比目前最先进的方法，成功地减少了 60％的延迟时间。

May, 2022

强化学习的红绿灯控制

本研究提出一种实时交通信号灯控制方法，使用深度 Q 学习，并结合奖励函数，考虑排队长度、延迟、旅行时间和吞吐量，通过根据当前交通状况动态决定相位变化。通过使用合成和实际交通流数据在中国杭州的一个路口进行验证，结果表明与传统的固定信号计划相比，该方法显著改善了车辆等待时间（57.1% 至 100%）、排队长度（40.9% 至 100%）和总行程时间（16.8% 至 68.0%）。

Aug, 2023

使用深度强化学习代理控制交通信号

提出了一种交通信号控制系统，利用现代深度强化学习方法构建适应性交通信号控制器，通过对作为输入的交通密集信息进行 Q-learning 训练并使用经验回放，与一种单隐藏层神经网络通讯信号控制器相比，实现了平均累计延迟减少 82％，平均队列长度减少 66％，平均旅行时间减少 20％。

Nov, 2016

应用强化学习优化交通信号灯周期

本文提出了使用强化学习来实时优化交通灯周期的方法，并通过使用 Simulation Urban Mobility 模拟器进行深度 Q 网络算法的训练进行了案例研究。实验结果显示，平均紧急停车数量减少了 44.16％，显示了我们的方法减少交通拥堵和改善交通流的潜力。此外，我们讨论了未来研究和强化学习模型的改进方向。

Feb, 2024

交通信号控制与减排的合作式多目标强化学习

提出一种合作的多目标架构 MOMA-DDPG 来优化交通信号控制，包含两种类型的代理人，一个代理人关注于优化本地交通，而另一个代理人旨在优化全局交通吞吐量，实验结果表明该方法优于现有的方法，可以最小化等待时间和碳排放。

Jun, 2023

交通信号灯和车速建议的深度强化学习

通过车辆与其它物体的通信，联合控制交通信号和车速建议有助于减少交通拥堵，改善交通系统的效能。

Sep, 2023

利用强化学习技术智能定时交通灯并实时处理监控摄像头图像的交通控制

使用人工智能和强化学习方法，通过对监控摄像头图像的实时处理，结合 YOLOv9-C 模型进行车辆检测，以及在 OpenAI Gym 的城市环境模拟器中使用多因素强化学习和 DQN 彩虹算法，成功确定并应用交通信号灯的最佳时机。此外，与伊朗车辆图像进行转移学习和重新训练，使模型的准确性得到提高。研究结果表明，该方法在分析监控摄像头和寻找最佳时机的两个部分都具有较高的准确性，且优于先前研究。

May, 2024

遗传编程学习交通信号控制

该研究提出了一种基于学习的方法，用于复杂交叉口的信号控制，通过设计一种可解释的树状紧急程度函数，并利用遗传编程进行优化，相比交通领域中的先进方法和一种已知的深度强化学习方法，实验结果表明这种方法能够提高交通信号控制的性能。

Mar, 2024