用于路面交通管制的离线强化学习技术

Jan, 2022

用于路面交通管制的离线强化学习技术

Offline Reinforcement Learning for Road Traffic Control

Mayuresh Kunjir, Sanjay Chawla

TL;DR本研究基于批量强化学习的方法，运用基于惩罚项的自适应奖励方式在普通的循环交通信号控制策略下，构建出一个马尔可夫决策过程（MDP）的学习框架，不仅提高了对于不同分布情境的管理优化，还显著提高了交通信号控制的效率。

Abstract

traffic signal control is an important problem in urban mobility with a significant potential of economic and environmental impact. While there is a growing interest in reinforcement learning (RL) for

reinforcement learning traffic signal control offline learning markov decision process cyclic traffic signal control

发现论文，激发创造

基于离线强化学习的完全数据驱动实现逼真交通信号控制

通过结合交通流理论和机器学习，我们提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架 (D2TSC)。我们利用历史交通数据构建了一个奖励推断模型，通过粗粒度的交通数据来推断奖励信号，并进一步使用样本高效的离线 RL 方法，从真实世界交叉口的离线历史数据集中直接学习信号控制策略。通过广泛实验证明，我们的方法在传统方法和离线 RL 基准上取得了卓越的性能，并且具有更好的实际应用性。

Nov, 2023

城市交叉口智能交通信号控制的强化学习方法

本文基于强化学习方法提出一种针对城市交叉口交通信号控制的新模型，采用神经网络作为 Q 函数的近似器进行复杂的信号控制，使用开放源代码的交通模拟器 SUMO 进行实验，结果表明该模型能够显著降低排队长度和等待时间，与基准方法相比具有更好的收敛性和泛化性能。

May, 2019

数据或许足够：离线强化学习桥接现实交通信号控制

本文提出了一种基于循环离线数据集的数据驱动方法来解决真实交通信号控制中部署的问题。在仿真与真实环境中进行了广泛实验，结果表明，引入循环离线数据集的数据驱动方法在某些情况下可以实现令人满意的性能，COD 可以被视为用于交通信号控制问题的可靠离线数据集。

Mar, 2023

缺失数据下的交通信号控制强化学习方法

本文介绍了如何使用强化学习来解决城市道路网络中交通信号控制的问题。我们提出了两种解决方案：第一种方案使用状态值估计来进行自适应控制，第二种方案同时使用状态值和奖励值估计来训练强化学习模型进行自适应控制。我们在合成和实际道路网络交通方面进行了大量实验，并发现我们的方法在处理缺失数据的情况下表现优异，且具有鲁棒性。

Apr, 2023

交通信号控制的随机集成强化学习

该研究提出一种名为 RElight 的动态学习交通信号控制策略的模型，并结合随机集成学习方法以避免陷入局部最优结果。研究还引入了 UTD 比率以控制数据重用数量，以提高数据利用率并在合成数据和实际数据上进行了实验以证明该方法优于现有最优方法。

Mar, 2022

基于轻量级 Transformer 的交通信号控制：离线到在线强化学习方法

DTLight 是一种基于 Decision Transformer 和知识蒸馏的简单而强大的轻量级交通信号控制方法，可从易于获取的离线数据集中学习策略，并通过适配器模块实现在线调整，其在合成和真实场景的广泛实验中表现出色。

Dec, 2023

强化学习的红绿灯控制

本研究提出一种实时交通信号灯控制方法，使用深度 Q 学习，并结合奖励函数，考虑排队长度、延迟、旅行时间和吞吐量，通过根据当前交通状况动态决定相位变化。通过使用合成和实际交通流数据在中国杭州的一个路口进行验证，结果表明与传统的固定信号计划相比，该方法显著改善了车辆等待时间（57.1% 至 100%）、排队长度（40.9% 至 100%）和总行程时间（16.8% 至 68.0%）。

Aug, 2023

面向交通信号控制的鲁棒深度强化学习：需求激增、事故和传感器故障

本论文详细研究采用深度强化学习（RL）算法解决交通拥堵问题，并开发了一个开源框架以评估这些算法在不同的交通模拟环境下的表现。通过考虑一系列外生不确定因素，如需求激增、容量减少和传感器故障等。我们得出了深度强化学习算法在交通控制领域的关键见解，并提出了具体的设计以减轻这些考虑过的外生不确定因素对系统的影响。

Apr, 2019

交通信号控制的学习阶段竞争

本文提出了一种基于相位竞争模型的交通信号控制方法 FRAP，它利用强化学习算法实现了自适应，具备更好的解决方案和更快的收敛速度，同时在不同的道路结构和交通情况下实现了卓越的普适性。

May, 2019

使用深度强化学习代理控制交通信号

提出了一种交通信号控制系统，利用现代深度强化学习方法构建适应性交通信号控制器，通过对作为输入的交通密集信息进行 Q-learning 训练并使用经验回放，与一种单隐藏层神经网络通讯信号控制器相比，实现了平均累计延迟减少 82％，平均队列长度减少 66％，平均旅行时间减少 20％。

Nov, 2016