使用深度强化学习的实时网约车调度
本文提出了基于深度强化学习的骑乘共享订单分配方案,其中模拟骑乘分配问题为半马尔可夫决策过程,并使用分布式状态表示层设计 Cerebellar Value Networks (CVNet) 以提高非线性函数逼近器 (如神经网络) 的值迭代的稳定性;最后,通过 AB 测试和离线模拟验证,在优化司机的总收入和提高用户体验方面,CVNet 相对于其他分配方法具有一定的优势,而经过有效的迁移学习后,CVNet 的性能进一步得到了提高。
Jun, 2021
通过实地用户研究,我们提出了一种个性化车辆重新定位技术,使用深度强化学习来估计司机对重新定位建议的决策,以提高供需平衡和司机接受率。实际轨迹数据的评估结果显示,这种技术能够提高司机接受率 38.07% 和总司机收入 9.97%。
Jan, 2024
本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车,以实现在线打车服务的供需平衡,并使用芝加哥的数据集进行了实验,结果表明 AM-DQN 相对于其他方法具有更好的性能。
Dec, 2022
骑行共享系统是提供生态友好的城市出行方式,有助于减轻交通拥堵和改善健康生活方式。本研究提出一种基于时空强化学习算法的动态均衡问题解决方案,在多种数据集上的实验证明其在减少需求损失方面优于传统模型,为城市出行提供更智能、强大的解决方案。
Feb, 2024
该研究提出了一种算法,能够在具有自主性的司机行为中,通过利用值迭代方法和策略传播计算所有乘客和司机的均衡策略,在 spatio-temporal distributions 与税车轨迹数据集等多个方面表现出优异的性能。
Feb, 2021
本研究提出了一种基于强化学习的实时调度算法,采用了新型的时间差异价值更新方法,并引入了自适应图剪枝策略,实现了 A/B 测试下司机收入总量提升超过 1.3%和全面部署后主要性能指标提升达到 5.3%的显著性能提升。
Feb, 2022
本文提出一种新颖的问题:如何在空间和时间上变化的情况下放置车辆以实时满足乘客的需求。研究者使用了四个主要美国城市一千万次乘车请求的数据集,证明了这种请求具有显著的自我相似性,并提出了分布式在线学习算法用于解决实时车辆定位的问题,并且通过观察到的自相似性,确定了算法的预期性能边界。
Dec, 2017
本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法,以路线优化策略的形式为车队提供路线规划,研究了面对实时、随机需求的情况下,在小到中型的道路网络中,对街道叫车服务的路线进行优化;使用基于代理的大规模微观仿真平台,评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现,结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色,并且混合算法可以显著加速模型无关学习者的学习过程。
Oct, 2020
自行车共享系统扮演了缓解交通拥堵和促进健康生活方式的关键角色。然而,保证其可靠性和用户接受度需要有效的自行车再平衡策略。本研究引入了一种新颖的方法来解决实时再平衡问题,采用车辆车队的双策略强化学习算法,通过分开库存和路径决策来提高现实性和效率。我们首先将库存和路径子问题在连续时间框架内构建成多智能体马尔可夫决策过程,并随后提出了基于 DQN 的双策略框架来联合估计值函数,从而减少流失的需求。通过应用综合性模拟器在先到先服务规则下运行,该模拟器可以计算出不同需求场景下的即时奖励,以便于学习。我们对由历史真实数据生成的各种数据集进行了大量实验,这些数据集受到时间和天气因素的影响。我们的算法在性能上显著优于以往的基准方法。它为运营商提供了有价值的实践观察,并进一步探讨了将强化学习应用于现实动态规划问题中的可能性,为更智能、更健壮的城市移动解决方案铺平了道路。
Jun, 2024
本文提出了一个端到端的框架,使用强化学习来解决车辆路径问题 (VRP),我们训练一个单一的模型,仅通过观察奖励信号和遵守可行性规则,就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数,我们的模型在实时中以连续操作序列的形式生成解决方案,无需为每个新问题实例重新训练,我们的方法在解决负载容量 VRP 的中等规模实例时,在解决质量上优于经典的启发式算法和 Google 的 OR-Tools,同时具有可比较的计算时间,在本文中还探讨了分裂交付对解决质量的影响。我们的提出的框架可以应用于其他 VRP 变体,例如随机 VRP,并具有应用于组合优化问题的潜力。
Feb, 2018