城市尺度在线打车服务中基于深度强化学习的代理指导方向

Dec, 2022

城市尺度在线打车服务中基于深度强化学习的代理指导方向

Where to go: Agent Guidance with Deep Reinforcement Learning in A City-Scale Online Ride-Hailing Service

Jiyao Li, Vicki H. Allan

TL;DR本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Abstract

online ride-hailing services have become a prevalent transportation system across the world. In this paper, we study a challenging problem of how to direct vacant taxis around a city such that supplies and demand

online ride-hailing services vacant taxis reward scheme deep reinforcement learning chicago dataset

发现论文，激发创造

使用深度强化学习的实时网约车调度

通过深度强化学习和决策时间规划，为运营商提供实时的出行调度决策，提高车辆调度效率和服务质量。

Mar, 2021

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

自适应可变需求的自主路由和取货问题的多智能体强化学习

提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Nov, 2022

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

基于深度价值网络的多司机订单调度方法

本文提出了基于深度强化学习的骑乘共享订单分配方案，其中模拟骑乘分配问题为半马尔可夫决策过程，并使用分布式状态表示层设计 Cerebellar Value Networks (CVNet) 以提高非线性函数逼近器 (如神经网络) 的值迭代的稳定性；最后，通过 AB 测试和离线模拟验证，在优化司机的总收入和提高用户体验方面，CVNet 相对于其他分配方法具有一定的优势，而经过有效的迁移学习后，CVNet 的性能进一步得到了提高。

Jun, 2021

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019

城市自主驾驶的无模型深度强化学习

本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架，并在高清晰度驾驶模拟器中进行了验证。结果表明，与基线相比，我们的方法可以很好地解决任务，且表现显著优异。

Apr, 2019

大规模地图上的按需城市移动问题的近似多智能体强化学习 (扩展版)

我们提出了一个近似的一次一个滚动法算法，通过将图分割成基于预测需求和用户定义的最大代理数量的区域，以减少计算成本，并在每个区域中并行执行一次一个滚动法算法，从而实现稳定的近似最优策略。

Nov, 2023

MOVI：一种无模型动态船舶管理方法

通过一个基于 1500 万次出租车记录的仿真实验，我们展示了一个全新的对于车辆调度问题建模的思路，并且展示了这种思路优于其他传统算法。同时，我们的结果也提示出，在实际场景中，独立决策的分布式策略在实践中更加有效。

Apr, 2018