基于不确定性感知的基础动作转换：用于交通信号控制的模拟到实际转换

Jul, 2023

基于不确定性感知的基础动作转换：用于交通信号控制的模拟到实际转换

Uncertainty-aware Grounded Action Transformation towards Sim-to-Real Transfer for Traffic Signal Control

Longchao Da, Hao Mei, Romir Sharma, Hua Wei

TL;DR本文提出了一种名为 UGAT 的仿真到真实世界转移方法，通过动态转换模拟中的不确定行动来减小转移动态的领域差异，从而将在仿真环境中训练的学习策略转移到真实环境中，显著提高了转移强化学习策略在真实世界中的性能。

Abstract

traffic signal control (TSC) is a complex and important task that affects the daily lives of millions of people. reinforcement learning (RL) has shown promising results in optimizing →

traffic signal control reinforcement learning simulation sim-to-real transfer performance improvement

发现论文，激发创造

基于 LLM 的仿真到现实交通信号控制迁移

利用大型语言模型（LLMs）通过基于提示的动作转换理解和建模系统动力学，以解决交通信号控制（TSC）任务中从模拟到实际应用的性能差距问题。

Aug, 2023

面向交通信号控制的强化学习实际应用

本文介绍了一个名为 LemgoRL 的基准工具，为了关闭现有交通信号控制器在简化的模拟环境下不能正确地执行任务的差距，提出在更真实的模拟环境中进行 RL 算法的训练，以在真实世界的交通系统中应用。通过在这个基准工具上训练一个深度 RL 算法的性能表现，论文指出本基准工具推动 RL 算法向着真实世界应用方向的发展。

Mar, 2021

真正的交易：将基于强化学习的交通信号控制系统向现实迈进的挑战和机遇综述

本篇研究检验了强化学习对于交通信号控制中的应用，探讨了其中的挑战与不确定性，提出了需要更多系统性思维的研究来解决这些挑战。

Jun, 2022

基于离线强化学习的完全数据驱动实现逼真交通信号控制

通过结合交通流理论和机器学习，我们提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架 (D2TSC)。我们利用历史交通数据构建了一个奖励推断模型，通过粗粒度的交通数据来推断奖励信号，并进一步使用样本高效的离线 RL 方法，从真实世界交叉口的离线历史数据集中直接学习信号控制策略。通过广泛实验证明，我们的方法在传统方法和离线 RL 基准上取得了卓越的性能，并且具有更好的实际应用性。

Nov, 2023

UniTSA：一种用于 V2X 交通信号控制的通用强化学习框架

在这项研究中，提出了一个基于强化学习的交通信号控制框架，能有效地处理城市地区持久存在的交通拥堵问题，通过引入交叉口矩阵来刻画交叉口状态，使该模型适用于不同结构的交叉口，并通过定制化的交通状态增强方法增加了处理各种交叉口结构的能力，多个交叉口配置的实验结果证实了该框架的有效性。

Dec, 2023

基于时空超图的多智能体强化学习交通信号控制

提出了一种新颖的交通信号控制系统框架，通过与多个相邻的边缘计算服务器协作收集道路网络上的交通信息，采用多智能体软 actor-critic 强化学习算法结合超图学习，以实现交通信号控制的智能化，优化交通流量，并且能够捕捉多个交叉口之间的复杂时空相关性，实现更智能、更具响应性的城市交通管理解决方案。

Apr, 2024

基于随机引入的动作转换技术用于机器人在仿真中学习

分析了用 Grounded Action Transformation 算法来解决 sim-to-real 问题的局限性，因为它们没有明确考虑到目标环境中的随机性，提出了 Stochastic Grounded Action Transformation 算法，这种算法在基于模拟的控制器在真实环境中无法成功迁移时有很好的应用。

Aug, 2020

利用领域随机化和元学习来弥合基于强化学习的交通信号控制的现实差距

通过对潜在的模拟参数分析和对两种策略（Domain Randomization 和 Model-Agnostic Meta-Learning）的研究，我们研究了交通信号控制系统中的现实差距问题，并在实验中证明这两种方法优于现有的强化学习算法，有望缓解现实差距。

Jul, 2023

数据或许足够：离线强化学习桥接现实交通信号控制

本文提出了一种基于循环离线数据集的数据驱动方法来解决真实交通信号控制中部署的问题。在仿真与真实环境中进行了广泛实验，结果表明，引入循环离线数据集的数据驱动方法在某些情况下可以实现令人满意的性能，COD 可以被视为用于交通信号控制问题的可靠离线数据集。

Mar, 2023

CityLight：一种面向现实世界城市规模交通信号控制协调的通用模型

交通信号控制是一项具有潜力的低成本措施，可以提高交通效率而不影响现有道路基础设施。本篇论文提出了基于增强学习的城市规模高可靠道路网络交通信号控制方法 CityLight，通过参数共享的 MAPPO 优化框架来实现多个智能体的协同控制和大规模异质交叉口的适配，采用邻域集成奖励以达到全局最优。大量实验证明 CityLight 具有出人意料的效果和推广性，整体性能提升 11.66%，在迁移场景中吞吐量提高了 22.59%。

Jun, 2024