自行车共享系统实时再平衡的双策略强化学习

Jun, 2024

自行车共享系统实时再平衡的双策略强化学习

Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems

Jiaqi Liang, Defeng Liu, Sanjay Dominik Jena, Andrea Lodi, Thibaut Vidal

TL;DR自行车共享系统扮演了缓解交通拥堵和促进健康生活方式的关键角色。然而，保证其可靠性和用户接受度需要有效的自行车再平衡策略。本研究引入了一种新颖的方法来解决实时再平衡问题，采用车辆车队的双策略强化学习算法，通过分开库存和路径决策来提高现实性和效率。我们首先将库存和路径子问题在连续时间框架内构建成多智能体马尔可夫决策过程，并随后提出了基于 DQN 的双策略框架来联合估计值函数，从而减少流失的需求。通过应用综合性模拟器在先到先服务规则下运行，该模拟器可以计算出不同需求场景下的即时奖励，以便于学习。我们对由历史真实数据生成的各种数据集进行了大量实验，这些数据集受到时间和天气因素的影响。我们的算法在性能上显著优于以往的基准方法。它为运营商提供了有价值的实践观察，并进一步探讨了将强化学习应用于现实动态规划问题中的可能性，为更智能、更健壮的城市移动解决方案铺平了道路。

Abstract

bike-sharing systems play a crucial role in easing traffic congestion and promoting healthier lifestyles. However, ensuring their reliability and user acceptance requires effective strategies for rebalancing bike

bike-sharing systems rebalancing reinforcement learning markov decision process urban mobility solutions

发现论文，激发创造

自行车共享系统中动态再平衡的强化学习方法

骑行共享系统是提供生态友好的城市出行方式，有助于减轻交通拥堵和改善健康生活方式。本研究提出一种基于时空强化学习算法的动态均衡问题解决方案，在多种数据集上的实验证明其在减少需求损失方面优于传统模型，为城市出行提供更智能、强大的解决方案。

Feb, 2024

基于深度强化学习的无桩自行车共享系统再平衡框架

本文研究了单车共享中的不均衡问题，提出了一种基于深度强化学习的算法，该算法结合空间和时间特征解决了该问题，并在 Mobike 公司的数据集上得到了验证。

Feb, 2018

使用深度强化学习的实时网约车调度

通过深度强化学习和决策时间规划，为运营商提供实时的出行调度决策，提高车辆调度效率和服务质量。

Mar, 2021

拓展共享电动交通系统的车队再平衡：一种多智能体深度强化学习方法

本文分析了真实的共享电动出行系统的运营模式、使用模式及扩张动态，并以此为基础，利用多智能体强化学习建立了一个高保真度的电动出行共享仿真器，在此基础上提出了一种新的基于动态优化的级联策略的解法，显著提高了系统对于未来需求的满足度和增加收益。

Nov, 2022

平衡逆强化学习用于出租车网络

该研究提出了一种算法，能够在具有自主性的司机行为中，通过利用值迭代方法和策略传播计算所有乘客和司机的均衡策略，在 spatio-temporal distributions 与税车轨迹数据集等多个方面表现出优异的性能。

Feb, 2021

i-Rebalance：供需平衡的个性化车辆重新定位

通过实地用户研究，我们提出了一种个性化车辆重新定位技术，使用深度强化学习来估计司机对重新定位建议的决策，以提高供需平衡和司机接受率。实际轨迹数据的评估结果显示，这种技术能够提高司机接受率 38.07% 和总司机收入 9.97%。

Jan, 2024

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019