多智能体深度强化学习中的协作决策方法：混合 Q 学习用于变道

Jun, 2024

多智能体深度强化学习中的协作决策方法：混合 Q 学习用于变道

Mix Q-learning for Lane Changing: A Collaborative Decision-Making Method in Multi-Agent Deep Reinforcement Learning

Xiaojun Bi, Mingjie He, Yiwen Sun

TL;DR本文提出了一种名为 MQLC 的方法，它通过整合混合价值 Q 网络，同时考虑集体和个体效益，以解决自主车辆路径规划中的车道变换决策问题。通过在观察中整合基于深度学习的意图识别模块并加强决策网络，使多主体系统能够有效地学习并制定最佳决策策略，从而显著提高车道变换的安全性和速度。

Abstract

lane-changing decisions, which are crucial for autonomous vehicle path planning, face practical challenges due to rule-based constraints and limited data. →

lane-changing decisions autonomous vehicle deep reinforcement learning collaboration mqlc model

发现论文，激发创造

交通优化中的隐式感知：先进的深度强化学习技术

通过采用深度强化学习从事自主驾驶车辆上的车辆跟随和变道模型，本论文探讨了解决构成道路阻塞的突发情况，提出了基于 Markov 决策过程和 MEC 辅助架构的综合决策控制系统，并通过 SUMO 模拟器和 OPENAI GYM 评估了该模型的性能，结果显示使用 ε-greedy 策略进行训练的 DQN 代理明显优于使用 Boltzmann 策略进行训练的代理。

Sep, 2023

利用深度强化学习进行动态和不确定高速公路环境下的自动车道变更决策

研究开发了一个新型仿真环境，采用深度强化学习的方法训练代理人，在动态和不确定的交通环境中实现了一致的性能，并表明所提出的数据驱动方法在嘈杂的环境中表现显著优于完全依赖启发式的方法。

Sep, 2019

使用深度强化学习进行自动速度和车道变更决策

该论文介绍了一种基于深度强化学习的方法，用于自动生成通用决策功能。通过在模拟环境中训练深度 Q 网络代理以处理卡车挂车组合的速度和车道变换决策，并在公路驾驶案例中表明该方法产生的代理匹配或超过了常用的参考模型。为了展示该方法的普适性，通过在对向交通的道路上训练它来训练同样的算法以进行超车案例的测试。此外，还介绍了一种将卷积神经网络应用于表示可互换对象的高级输入的新方法。

Mar, 2018

端到端深度强化学习实现车道保持辅助

本文提出了不同的深度强化学习方法用于自动驾驶，分别包括离散行动类别中的深度 Q 网络算法 (DQN) 和连续行动类别中的深度确定性演员 - 评论家算法 (DDAC)，并在 TORCS 模拟器中测试了其性能。

Dec, 2016

一种基于深度强化学习的多智能体协作控制框架：图形卷积 Q 网络

本文提出一种基于 GCN 和 DQN 的深度强化学习方法，名为 GCQ，用于信息融合和决策处理，以便协同感知获取的信息可以实现多辆 CAV 的安全和协作换道决策，从而达到个体意愿的满足，即使在高度动态和部分观察到的混合交通状况下，可以部署在道路边缘单元或云平台等集中控制基础设施上，以提高 CAV 运作。

Oct, 2020

基于邻近政策优化的深度强化学习自动换道策略

这篇论文研究了如何利用无人驾驶中的深度强化学习技术来优化车辆变道的策略，通过使用近端策略优化来提高学习效率和性能表现，进一步验证了该策略的有效性和安全性。

Feb, 2020

DRNet：基于深度强化学习的自动车道变更决策方法

机器学习在自主驾驶车辆的决策制定中优于许多基于规则的方法，我们通过提出一种基于强化学习的框架 'DRNet'，使用深度强化学习 (DRL) 来改进车道切换，并结合安全验证来确保只选择安全动作。

Nov, 2023

多智能体深度强化学习用于大规模交通信号控制

本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法，以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度，并在大型合成交通网格和摩纳哥城的大型实际交通网络下，通过模拟高峰流量动态，并将其与独立 A2C 和独立 Q-learning 算法进行比较，结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。

Mar, 2019

基于技能发现的自动驾驶车辆交叉口自适应决策

提出一种基于强化学习和动作基元的分层框架，可自主收集和重复使用知识来解决城市环境下自动驾驶面临的挑战和不确定性，通过 CARLA 模拟器的测试，其表现优于其他基线方法。

Jul, 2022

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012