MOVI:一种无模型动态船舶管理方法
本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法,以路线优化策略的形式为车队提供路线规划,研究了面对实时、随机需求的情况下,在小到中型的道路网络中,对街道叫车服务的路线进行优化;使用基于代理的大规模微观仿真平台,评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现,结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色,并且混合算法可以显著加速模型无关学习者的学习过程。
Oct, 2020
本文提出了一种基于半马尔可夫决策过程和离散事件模拟的动态车辆调度问题解决方法,并在纽约市的真实场景下进行了数值实验,结果显示相对于其他启发式策略,该方法的平均等待时间减少了 50%。
Jul, 2023
本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车,以实现在线打车服务的供需平衡,并使用芝加哥的数据集进行了实验,结果表明 AM-DQN 相对于其他方法具有更好的性能。
Dec, 2022
进行近未来空中出租车运营,并使用电动垂直起降 (eVTOL) 飞行器,在频繁充电、垂直机场上有限的起降区以及时变需求和电价限制下,eVTOL 调度问题是独特而具有挑战性的。本文通过发展基于深度强化学习的两种 eVTOL 调度算法,即单智能体和多智能体深度 Q-learning eVTOL 调度算法,旨在最大化运营利润。建立了一个基于 eVTOL 的乘客运输仿真环境,通过 36 个数值实验评估了算法的性能,覆盖不同数量的 eVTOLs、垂直机场和需求情况。结果表明,多智能体 eVTOL 调度算法在计算开销显著减少的情况下,能够接近近优的调度策略。与单智能体算法相比,多智能体算法在产生利润和训练时间方面表现更好。
Dec, 2023
本研究提出了一个两层框架来促进在线车队管理,具体而言,上层框架提出了一种新的多主体封建强化学习模型,以协同分配空闲车辆到不同的城际线路,而下层利用自适应大邻域搜索启发式不断更新车辆的路线。
Jul, 2023
采用 VGA 方法来有效地解决大规模 MoD 系统中的乘客 - 车辆分配和路线问题,实验表明,采用最优化乘客共乘策略相对于没有共乘策略的 MoD 系统,车辆行驶距离减少 57%,平均乘客旅行延迟降低 5%。
Apr, 2023
本文提出了基于深度强化学习的骑乘共享订单分配方案,其中模拟骑乘分配问题为半马尔可夫决策过程,并使用分布式状态表示层设计 Cerebellar Value Networks (CVNet) 以提高非线性函数逼近器 (如神经网络) 的值迭代的稳定性;最后,通过 AB 测试和离线模拟验证,在优化司机的总收入和提高用户体验方面,CVNet 相对于其他分配方法具有一定的优势,而经过有效的迁移学习后,CVNet 的性能进一步得到了提高。
Jun, 2021
本研究提出并分析一个排队论模型,用于自主移动出行(MOD)系统,其中机器人、自动驾驶车辆在城市环境中运输乘客并使自身再平衡以确保整个网络的可接受服务质量。研究表明,可以通过解决线性规划来找到最优再平衡算法,从而最小化(自主)再平衡车辆数量并保持整个网络车辆可用性的平衡。我们基于这些理论洞见设计了一个稳健的实时再平衡算法,并将其应用于纽约市的案例研究。这篇论文提供了一个解决自主驾驶车辆系统范围协调问题的严谨方法,并提供了对机器人交通网络可持续性益处的首个表征。
Apr, 2014
本文研究了在离散事件模拟环境下,使用基于 Deep-Q 的深度强化学习代理来解决模块化生产设施中的作业车间调度问题。研究发现,相比于传统启发式和成本表等方法,基于 DRL 的代理相当,并且具有更高的噪声稳健性,对于这种类型的调度问题值得尝试。
May, 2022