Jun, 2024

自行车共享系统实时再平衡的双策略强化学习

TL;DR自行车共享系统扮演了缓解交通拥堵和促进健康生活方式的关键角色。然而,保证其可靠性和用户接受度需要有效的自行车再平衡策略。本研究引入了一种新颖的方法来解决实时再平衡问题,采用车辆车队的双策略强化学习算法,通过分开库存和路径决策来提高现实性和效率。我们首先将库存和路径子问题在连续时间框架内构建成多智能体马尔可夫决策过程,并随后提出了基于 DQN 的双策略框架来联合估计值函数,从而减少流失的需求。通过应用综合性模拟器在先到先服务规则下运行,该模拟器可以计算出不同需求场景下的即时奖励,以便于学习。我们对由历史真实数据生成的各种数据集进行了大量实验,这些数据集受到时间和天气因素的影响。我们的算法在性能上显著优于以往的基准方法。它为运营商提供了有价值的实践观察,并进一步探讨了将强化学习应用于现实动态规划问题中的可能性,为更智能、更健壮的城市移动解决方案铺平了道路。