交通专业知识与剩余强化学习相结合：知识驱动的基于模型的剩余强化学习用于CAV轨迹控制

Aug, 2024

交通专业知识与剩余强化学习相结合：知识驱动的基于模型的剩余强化学习用于CAV轨迹控制

Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control

HTML

PDF

Zihao Sheng, Zilin Huang, Sikai Chen

TL;DR本研究解决了模型基强化学习在复杂环境中准确建模的挑战，提出了一种知识驱动的模型基剩余强化学习框架，以提升学习效率。通过将交通专家知识融入虚拟环境模型，本方法显著改善了CAV轨迹控制任务中的学习效率和政策优化，实现了比基线代理更优的表现。

Abstract

Model-based Reinforcement Learning (RL) is anticipated to exhibit higher Sample Efficiency compared to model-free RL by utilizing a virtual environment model. However, it is challenging to obtain sufficiently acc

发现论文，激发创造

用于路面交通管制的离线强化学习技术

本研究基于批量强化学习的方法，运用基于惩罚项的自适应奖励方式在普通的循环交通信号控制策略下，构建出一个马尔可夫决策过程（MDP）的学习框架，不仅提高了对于不同分布情境的管理优化，还显著提高了交通信号控制的效率。

Jan, 2022

使用无模型强化学习在安全驾驶情境中自动学习备用策略

本文介绍了一种无模型的强化学习代理来捕捉环境中多种行为方式的方法, 引入额外的伪奖励项来鼓励探索具有不同状态空间的区域，并将此应用于自动驾驶场景，以学习备用策略并展示其可行性。

Apr, 2022

数据或许足够：离线强化学习桥接现实交通信号控制

本文提出了一种基于循环离线数据集的数据驱动方法来解决真实交通信号控制中部署的问题。在仿真与真实环境中进行了广泛实验，结果表明，引入循环离线数据集的数据驱动方法在某些情况下可以实现令人满意的性能，COD可以被视为用于交通信号控制问题的可靠离线数据集。

Mar, 2023

基于参数化技能和先验知识的自动驾驶高效强化学习

ASAP-RL提出了一种基于动作技能和专家先验知识的自动驾驶高效强化学习算法，旨在应对在复杂的拥堵道路条件下，传统驾驶策略难以扩展的问题。实验结果表明，相对于其他应用不同技能和先验知识的方法，该算法能够提高学习效率和驾驶性能。

May, 2023

闭环中学习真实交通代理

使用闭环模拟学习方法 RTR，在模拟和真实数据集中训练交通仿真策略，以提高交通规则遵守性和仿真的真实性。

Nov, 2023

基于离线强化学习的完全数据驱动实现逼真交通信号控制

通过结合交通流理论和机器学习，我们提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架(D2TSC)。我们利用历史交通数据构建了一个奖励推断模型，通过粗粒度的交通数据来推断奖励信号，并进一步使用样本高效的离线RL方法，从真实世界交叉口的离线历史数据集中直接学习信号控制策略。通过广泛实验证明，我们的方法在传统方法和离线RL基准上取得了卓越的性能，并且具有更好的实际应用性。

Nov, 2023

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

通过强化学习分析非信号化路口的混合交通行为

本研究报告探讨了强化学习(RL)代理在停车迟迟及加速停车场景中所表现的多模态分布程度，并调查了RL控制的机器人车辆(RVs)在复杂交通环境中如何有效导航方向与其他车辆进行协作。通过分析多模态队列长度、流量和编队大小分布以及队列长度与流量之间的皮尔逊系数相关性，考虑了机器人和人驾驶车辆(HVs)的相同和不同行驶方向，还研究了因果推断模型，揭示在涉及不同行驶方向的场景中影响队列长度的因素。通过这些调查，本报告为混合交通(RVs和HVs)在交通管理和协调中的行为提供了宝贵的见解。

Nov, 2023

基于深度强化学习和真实世界轨迹数据的无人车交通平滑控制器

通过使用田纳西州I-24高速公路的实际轨迹数据，在一条车道的仿真中运行深度强化学习方法来训练减少能耗的波浪平滑策略，我们展示了在低4%的自动驾驶车辆渗透率下，对于出现许多停停走走波浪的轨迹，可以实现超过15%的显著节省燃料，分析了控制器的平滑效果以及对仿真中添加车道变更和消除下游信息的鲁棒性。

Jan, 2024

用于混合交通编队中安全巡航的物理增强残差策略学习（PERPL）

本研究解决了传统线性控制模型在适应性和多目标设定下的不足，通过引入物理知识增强的残差策略学习框架（PERPL），结合物理模型的可解释性及灵活的强化学习方法。实验证明，在应对人为极端状态和实时前方车辆轨迹时，PERPL在减少车辆间距误差和震荡抑制方面优于传统线性模型和单独的强化学习方法，提高了混合交通流的整体稳定性。

Sep, 2024