互信息作为强化学习智能体的内在奖励：面向按需乘车拼车的研究

Dec, 2023

互信息作为强化学习智能体的内在奖励：面向按需乘车拼车的研究

Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling

Xianjie Zhang, Jiahao Sun, Chen Gong, Kai Wang, Yifei Cao...

TL;DR采用增强学习算法的车辆调度框架在提高收益的同时保证了请求的合理分配，可以显著提高现有最佳即时共乘方法的收入达到平均 3％的增长。

Abstract

The emergence of on-demand ride pooling services allows each vehicle to serve multiple passengers at a time, thus increasing drivers' income and enabling passengers to travel at lower prices than taxi/car on-demand services (only one passenger can be assigned to a car at a time like Ub

on-demand ride pooling services matching strategy revenue maximization vehicle dispatching reinforcement learning

发现论文，激发创造

基于多智能体分层强化学习的即时城际拼车服务车辆派遣和路径规划

本研究提出了一个两层框架来促进在线车队管理，具体而言，上层框架提出了一种新的多主体封建强化学习模型，以协同分配空闲车辆到不同的城际线路，而下层利用自适应大邻域搜索启发式不断更新车辆的路线。

Jul, 2023

平衡逆强化学习用于出租车网络

该研究提出了一种算法，能够在具有自主性的司机行为中，通过利用值迭代方法和策略传播计算所有乘客和司机的均衡策略，在 spatio-temporal distributions 与税车轨迹数据集等多个方面表现出优异的性能。

Feb, 2021

可持续的即时拼车的未来感知定价和匹配

本文介绍了一种新的框架，可将定价和匹配问题集成起来，同时考虑这些决策对未来的影响。在真实的出租车数据集上实验表明，此框架可以以可持续的方式显著提高收入，减少所需车辆数量和总行驶里程，从而为所有相关方带来双赢的局面（包括顾客、司机、聚合器和环境）。

Feb, 2023

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

使用模型增强的强化学习优化出租车车队的随机路由

本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法，以路线优化策略的形式为车队提供路线规划，研究了面对实时、随机需求的情况下，在小到中型的道路网络中，对街道叫车服务的路线进行优化；使用基于代理的大规模微观仿真平台，评估了提出的算法在人工道路网络和社区基础新加坡道路网络中的表现，结果显示出基于模型的派遣算法、基于高性能模型无关的强化学习算法和混合算法在性能上均表现出色，并且混合算法可以显著加速模型无关学习者的学习过程。

Oct, 2020

基于神经网络的动态规划算法应用于顺风车拼车

本文提出了一种基于 Approximate Dynamic Programming (ADP) 的方法，使用神经网络近似值函数，并展示了与 Deep Reinforcement Learning 的联系，以应对近实时 ride-pooling 问题中整数线性规划和组合复杂性，并在实际数据集上表现出比之前方法高达 16％的效果，显著改进了城市交通问题。

Nov, 2019

利用简单激励机制提高拼车系统的双面公平性

该研究提出了一种简单的激励机制公平方案，以改善运用现有 ILP 方案时可能导致的司机和乘客不公平问题，并证明了该方案显著优于其他成功案例，无需重新培训即可实现对最差的个体的度量改善。

Mar, 2023

激增路径规划：面向事件的多智能体强化学习自主拼车

提出一种学习框架来预测和适应需求涌升，在服务于更多请求的合作路由和接送策略方面优于其他路由协议，在处理涌升需求情况时比其他基于模型的强化学习框架和经典算法获得平均每分钟增加 6 个请求（每小时约增加 360 个请求）的路由策略。

Jul, 2023

自适应可变需求的自主路由和取货问题的多智能体强化学习

提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Nov, 2022