野外强化学习：在打车市场部署的可扩展的强化学习调度算法

KDDFeb, 2022

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm Deployed in Ridehailing Marketplace

Soheil Sadeghi Eshkevari, Xiaocheng Tang, Zhiwei Qin, Jinhan Mei, Cheng Zhang...

TL;DR本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Abstract

In this study, a real-time dispatching algorithm based on reinforcement learning is proposed and for the first time, is deployed in large scale. Current dispatching methods in ridehailing platforms are dominantly

reinforcement learning dispatching algorithm ridehailing performance improvement temporal difference

发现论文，激发创造

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019

基于深度价值网络的多司机订单调度方法

本文提出了基于深度强化学习的骑乘共享订单分配方案，其中模拟骑乘分配问题为半马尔可夫决策过程，并使用分布式状态表示层设计 Cerebellar Value Networks (CVNet) 以提高非线性函数逼近器 (如神经网络) 的值迭代的稳定性；最后，通过 AB 测试和离线模拟验证，在优化司机的总收入和提高用户体验方面，CVNet 相对于其他分配方法具有一定的优势，而经过有效的迁移学习后，CVNet 的性能进一步得到了提高。

Jun, 2021

运用强化学习和迁移学习的制造调度

本文针对制造业生产中派工问题，运用强化学习提出了一种新的设计方法，将车间状态表示为 2D 矩阵，设计了适用于派工目的的延迟和超时奖励函数，并采用调度策略转移方法增强模型泛化能力和节省模型训练和数据收集时间。实验结果显示该方法在总折扣奖励和平均延迟、超时方面表现最佳。

Oct, 2019

使用深度强化学习的实时网约车调度

通过深度强化学习和决策时间规划，为运营商提供实时的出行调度决策，提高车辆调度效率和服务质量。

Mar, 2021

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

深度调度：基于深度强化学习的先进空中机动性车辆调度算法

进行近未来空中出租车运营，并使用电动垂直起降 (eVTOL) 飞行器，在频繁充电、垂直机场上有限的起降区以及时变需求和电价限制下，eVTOL 调度问题是独特而具有挑战性的。本文通过发展基于深度强化学习的两种 eVTOL 调度算法，即单智能体和多智能体深度 Q-learning eVTOL 调度算法，旨在最大化运营利润。建立了一个基于 eVTOL 的乘客运输仿真环境，通过 36 个数值实验评估了算法的性能，覆盖不同数量的 eVTOLs、垂直机场和需求情况。结果表明，多智能体 eVTOL 调度算法在计算开销显著减少的情况下，能够接近近优的调度策略。与单智能体算法相比，多智能体算法在产生利润和训练时间方面表现更好。

Dec, 2023

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

城市尺度在线打车服务中基于深度强化学习的代理指导方向

本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Dec, 2022

基于事件的深度强化学习应用于动态车辆调度问题

本文提出了一种基于半马尔可夫决策过程和离散事件模拟的动态车辆调度问题解决方法，并在纽约市的真实场景下进行了数值实验，结果显示相对于其他启发式策略，该方法的平均等待时间减少了 50%。

Jul, 2023

订单调度中的模式迁移强化学习

本研究提出了一种基于价值传输学习和纵向一致性惩罚的算法框架，来解决实时预定派单系统中需求 - 供给关系的非同态性问题，实验结果表明，该算法优于传统价值传导学习方法。

May, 2021