MOVI：一种无模型动态船舶管理方法

Apr, 2018

MOVI：一种无模型动态船舶管理方法

MOVI: A Model-Free Approach to Dynamic Fleet Management

Takuma Oda, Carlee Joe-Wong

TL;DR通过一个基于 1500 万次出租车记录的仿真实验，我们展示了一个全新的对于车辆调度问题建模的思路，并且展示了这种思路优于其他传统算法。同时，我们的结果也提示出，在实际场景中，独立决策的分布式策略在实践中更加有效。

Abstract

Modern vehicle fleets, e.g., for ridesharing platforms and taxi companies, can reduce passengers' waiting times by proactively dispatching vehicles to locations where pickup requests are anticipated in the future. Yet it is unclear how to best do this: optimal dispatching requires opti

vehicle dispatching model-free approach deep q-network taxi trip records ridesharing platforms

发现论文，激发创造

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

基于事件的深度强化学习应用于动态车辆调度问题

本文提出了一种基于半马尔可夫决策过程和离散事件模拟的动态车辆调度问题解决方法，并在纽约市的真实场景下进行了数值实验，结果显示相对于其他启发式策略，该方法的平均等待时间减少了 50%。

Jul, 2023

使用深度强化学习的实时网约车调度

通过深度强化学习和决策时间规划，为运营商提供实时的出行调度决策，提高车辆调度效率和服务质量。

Mar, 2021

城市尺度在线打车服务中基于深度强化学习的代理指导方向

本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Dec, 2022

深度调度：基于深度强化学习的先进空中机动性车辆调度算法

进行近未来空中出租车运营，并使用电动垂直起降 (eVTOL) 飞行器，在频繁充电、垂直机场上有限的起降区以及时变需求和电价限制下，eVTOL 调度问题是独特而具有挑战性的。本文通过发展基于深度强化学习的两种 eVTOL 调度算法，即单智能体和多智能体深度 Q-learning eVTOL 调度算法，旨在最大化运营利润。建立了一个基于 eVTOL 的乘客运输仿真环境，通过 36 个数值实验评估了算法的性能，覆盖不同数量的 eVTOLs、垂直机场和需求情况。结果表明，多智能体 eVTOL 调度算法在计算开销显著减少的情况下，能够接近近优的调度策略。与单智能体算法相比，多智能体算法在产生利润和训练时间方面表现更好。

Dec, 2023

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

大规模在线拼车：指派优化对系统性能的影响

采用 VGA 方法来有效地解决大规模 MoD 系统中的乘客 - 车辆分配和路线问题，实验表明，采用最优化乘客共乘策略相对于没有共乘策略的 MoD 系统，车辆行驶距离减少 57%，平均乘客旅行延迟降低 5%。

Apr, 2023

基于深度价值网络的多司机订单调度方法

本文提出了基于深度强化学习的骑乘共享订单分配方案，其中模拟骑乘分配问题为半马尔可夫决策过程，并使用分布式状态表示层设计 Cerebellar Value Networks (CVNet) 以提高非线性函数逼近器 (如神经网络) 的值迭代的稳定性；最后，通过 AB 测试和离线模拟验证，在优化司机的总收入和提高用户体验方面，CVNet 相对于其他分配方法具有一定的优势，而经过有效的迁移学习后，CVNet 的性能进一步得到了提高。

Jun, 2021

机器人按需移动系统的控制：排队论观点

本研究提出并分析一个排队论模型，用于自主移动出行（MOD）系统，其中机器人、自动驾驶车辆在城市环境中运输乘客并使自身再平衡以确保整个网络的可接受服务质量。研究表明，可以通过解决线性规划来找到最优再平衡算法，从而最小化（自主）再平衡车辆数量并保持整个网络车辆可用性的平衡。我们基于这些理论洞见设计了一个稳健的实时再平衡算法，并将其应用于纽约市的案例研究。这篇论文提供了一个解决自主驾驶车辆系统范围协调问题的严谨方法，并提供了对机器人交通网络可持续性益处的首个表征。

Apr, 2014

基于深度 Q 学习的模块化生产环境下的车辆管理

本文研究了在离散事件模拟环境下，使用基于 Deep-Q 的深度强化学习代理来解决模块化生产设施中的作业车间调度问题。研究发现，相比于传统启发式和成本表等方法，基于 DRL 的代理相当，并且具有更高的噪声稳健性，对于这种类型的调度问题值得尝试。

May, 2022