Mar, 2024

RL-MSA:一种基于强化学习的多线路公交调度方法

TL;DR多线路公交车调度问题被建模为马尔可夫决策过程,并提出了基于强化学习的多线路公交车调度方法,该方法包括离线阶段和在线阶段,通过整合拖车决策简化学习问题,并通过时间窗口机制进行拖车决策,实验结果表明操作成本较少的同时能保证服务质量。