自主用车系统中的多智能体深度强化学习中的全球激励

Dec, 2023

自主用车系统中的多智能体深度强化学习中的全球激励

Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems

Heiko Hoppe, Tobias Enders, Quentin Cappart, Maximilian Schiffer

TL;DR自主按需移动（AMoD）系统中的车辆调度是本研究的重点，使用多代理深度强化学习（MADRL）算法，通过分配全局奖励，解决训练代理和操作者之间的目标冲突，从而实现了显著的性能改进和全局收益的优化。

Abstract

We study vehicle dispatching in autonomous mobility on demand (AMoD) systems, where a central operator assigns vehicles to customer requests or rejects these with the aim of maximizing its total profit. Recent ap

vehicle dispatching autonomous mobility on demand deep reinforcement learning global rewards demand forecasting

发现论文，激发创造

基于图强化学习的电动自主移动出行需求系统的实时控制

通过基于强化学习的图神经网络框架解决运营商在实时决策中遇到的电动自主出行需求匹配、空闲车辆再平衡和充电范围保证等问题，以提高可扩展性、性能和运行效率。

Nov, 2023

基于全局损失的自主移动即需车队控制的多智能体软演员评论

我们研究了自主移动出行系统的利润最大化操作员的顺序决策问题。通过使用多智能体软演员 - 评论家算法结合加权二分图匹配，我们优化了中央操作员的车辆调度策略，提出了一种新的基于车辆的算法体系结构，并调整了评论家的损失函数以恰当地考虑全局行动。此外，我们还扩展了算法以包含重新平衡功能。通过数值实验证明，我们的方法在调度方面的性能比最先进的基准提高了多达 12.9%，在集成重新平衡方面提高了多达 38.9%。

Apr, 2024

使用深度强化学习的实时网约车调度

通过深度强化学习和决策时间规划，为运营商提供实时的出行调度决策，提高车辆调度效率和服务质量。

Mar, 2021

利用场均多智能体强化学习进行高效拼车订单调度

本研究采用多个智能体玩游戏的强化学习方法，结合平均场近似对订单调度问题进行建模，成功降低高峰期的供需差异并减少交通拥堵。

Jan, 2019

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

交通信号控制与减排的合作式多目标强化学习

提出一种合作的多目标架构 MOMA-DDPG 来优化交通信号控制，包含两种类型的代理人，一个代理人关注于优化本地交通，而另一个代理人旨在优化全局交通吞吐量，实验结果表明该方法优于现有的方法，可以最小化等待时间和碳排放。

Jun, 2023

基于深度强化学习的车联网边缘计算多接入调度

利用无人机辅助多智能体图卷积深度强化学习算法，实现车道上物联网设备最大化的用户体验，并在仿真中取得了良好的性能。

Feb, 2022

自主按需出行系统的稳健电动车平衡：一种多智能体强化学习方法

设计一种基于多智能体强化学习 (MARL) 的框架用于解决电动自主车辆 (EAVs) 在经济与社会方面带来的挑战，通过建模供给和需求的不确定性来平衡整个城市的供求比率和充电利用率。

Jul, 2023

城市尺度在线打车服务中基于深度强化学习的代理指导方向

本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车，以实现在线打车服务的供需平衡，并使用芝加哥的数据集进行了实验，结果表明 AM-DQN 相对于其他方法具有更好的性能。

Dec, 2022

多智能体深度强化学习（MADRL）遇见多用户 MIMO 系统

本文提出了一种 MADRL 的方法，即采用 MA-DDPG 框架，在有多个决策制定者并且这些决策制定者只能观测到部分环境信息，且存在多维度动作空间的情况下，在多输入单输出干扰信道系统中联合优化预编码器，来实现可实现速率区域的边界，同时提出了一种解决相位歧义问题的训练方法（PAE），模拟结果表明这种方法在 MISO IFC 系统中可以学习到近乎最优的预编码策略，并且这是第一篇在多个蜂窝、多用户、多天线系统中证明 MA-DDPG 框架可以联合优化预编码器以达到可实现速率区域的边界的研究。

Sep, 2021