DeliverAI: 基于强化学习的分布式送餐路径共享网络

Nov, 2023

DeliverAI: 基于强化学习的分布式送餐路径共享网络

DeliverAI: Reinforcement Learning Based Distributed Path-Sharing Network for Food Deliveries

Ashman Mehra, Snehanshu Saha, Vaskar Raychoudhury, Archana Mathur

TL;DR通过强化学习实现路径共享算法，优化多目标最优化问题，提高送餐效率并降低成本。

Abstract

delivery of items from the producer to the consumer has experienced significant growth over the past decade and has been greatly fueled by the recent pandemic. Amazon Fresh, Shopify, UberEats, InstaCart, and DoorDash are rapidly growing and are sharing the same business model of consum

delivery food delivery multi-objective optimization reinforcement learning path-sharing

发现论文，激发创造

仓储中的拣货路径问题的深度强化学习

仓库操作管理中的拣货路径规划是一个关键问题。由于问题的复杂性和快速解决的需求，实践中经常使用次优算法。然而，强化学习提供了传统启发式方法的一个有吸引力的替代方案，潜在地在速度和准确性方面优于现有方法。我们介绍了一种基于注意力机制的神经网络模型来建模拣货路线，该模型使用强化学习进行训练。我们的方法在一系列问题参数上与现有启发式方法进行了评估，以展示其效力。我们提出的方法的一个关键优势是可以降低路径的感知复杂性。

Feb, 2024

城市尺度在线打车服务中基于深度强化学习的代理指导方向

本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Dec, 2022

电子商务中高效履约和路由策略的多智能体学习

该研究提出了一个集成算法框架，用于在电子商务中最小化产品送货成本（成本对服务或 C2S）。通过结合图神经网络和强化学习来训练节点选择和车辆路径规划代理，我们的实验结果表明，这种算法流程胜过纯启发式策略。

Nov, 2023

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

云厨房：利用基于规划的复合智能优化食品配送流程

云厨平台是一个决策工具，用于餐厅的食品配送，通过使用 VRPTW 来分配顾客订单和决定服务顺序，提高用户满意度。

Feb, 2024

DRL4Route：一种基于深度强化学习的提取和交付路线预测框架

目前对 Pick-up and Delivery Route Prediction 的研究主要集中在利用深度神经网络、强化学习等方法来预测工人的服务路线，并提出了一种名为 DRL4Route 的基于强化学习的框架用于改善现有的深度学习模型，其中 DRL4Route-GAE 模型在物流服务中更进一步实现了平衡偏差和方差的策略优化，通过离线与在线实验表明相对于现有方法能够分别提高 Location Square Deviation（LSD）0.9%-2.7% 和 Accuracy@3（ACC@3）2.4%-3.2%。

Jul, 2023

自适应可变需求的自主路由和取货问题的多智能体强化学习

提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Nov, 2022

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

学习高效且公平的不确定性感知人机协作拣货策略

在协作式人机拣货系统中，通过仓库独立移动的人工拣货员和自主移动机器人（AMRs）在拣货位置汇合，拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题，提出了一种新颖的多目标深度强化学习（DRL）方法，以学习有效的分配策略，既最大化拣货效率，又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态，并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型，用于训练和评估提出的 DRL 方法。实验中，我们证明了我们的方法能够找到非支配策略集，从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线，并且在不同仓库大小的场景中展现出良好的可迁移性。

Apr, 2024

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019