Mar, 2025

通过基于模型的强化学习和策略重用增强交通信号控制

TL;DR本研究解决了现有多智能体强化学习方法在交通信号控制中因固定的交通模式和路网条件导致的适应性差的问题。提出的两种算法PLight和PRLight,通过预训练的控制策略和环境模型提升了系统对新交通场景的适应能力,并显著缩短了在新场景中学习的时间。实验结果表明,PRLight在不同交通场景中可实现最佳性能,并有效降低重训练成本。