自适应可变需求的自主路由和取货问题的多智能体强化学习

Nov, 2022

自适应可变需求的自主路由和取货问题的多智能体强化学习

Multiagent Reinforcement Learning for Autonomous Routing and Pickup Problem with Adaptation to Variable Demand

Daniel Garces, Sushmita Bhattacharya, Stephanie Gil, Dimitri Bertsekas

TL;DR提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Abstract

We derive a learning framework to generate routing/pickup policies for a fleet of autonomous vehicles tasked with servicing stochastically appearing requests on a city map. We focus on policies that 1) give rise to coordination amongst the vehicles, thereby reducing wait times for serv

autonomous vehicles routing policies demand model wasserstein distance reinforcement learning

发现论文，激发创造

大规模地图上的按需城市移动问题的近似多智能体强化学习 (扩展版)

我们提出了一个近似的一次一个滚动法算法，通过将图分割成基于预测需求和用户定义的最大代理数量的区域，以减少计算成本，并在每个区域中并行执行一次一个滚动法算法，从而实现稳定的近似最优策略。

Nov, 2023

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

激增路径规划：面向事件的多智能体强化学习自主拼车

提出一种学习框架来预测和适应需求涌升，在服务于更多请求的合作路由和接送策略方面优于其他路由协议，在处理涌升需求情况时比其他基于模型的强化学习框架和经典算法获得平均每分钟增加 6 个请求（每小时约增加 360 个请求）的路由策略。

Jul, 2023

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

城市尺度在线打车服务中基于深度强化学习的代理指导方向

本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Dec, 2022

仓储中的拣货路径问题的深度强化学习

仓库操作管理中的拣货路径规划是一个关键问题。由于问题的复杂性和快速解决的需求，实践中经常使用次优算法。然而，强化学习提供了传统启发式方法的一个有吸引力的替代方案，潜在地在速度和准确性方面优于现有方法。我们介绍了一种基于注意力机制的神经网络模型来建模拣货路线，该模型使用强化学习进行训练。我们的方法在一系列问题参数上与现有启发式方法进行了评估，以展示其效力。我们提出的方法的一个关键优势是可以降低路径的感知复杂性。

Feb, 2024

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019

平衡逆强化学习用于出租车网络

该研究提出了一种算法，能够在具有自主性的司机行为中，通过利用值迭代方法和策略传播计算所有乘客和司机的均衡策略，在 spatio-temporal distributions 与税车轨迹数据集等多个方面表现出优异的性能。

Feb, 2021

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023