通过数据正则化的自博弈强化学习实现与人类兼容的驾驶伙伴

Mar, 2024

通过数据正则化的自博弈强化学习实现与人类兼容的驾驶伙伴

Human-compatible driving partners through data-regularized self-play reinforcement learning

Daphne Cornelisse, Eugene Vinitsky

TL;DR用 HR-PPO 多智能体算法通过自我对抗训练实现人类驾驶参考政策偏离的小惩罚，从而在模拟中培训和评估具有可扩展性的自动驾驶系统，以达到高目标实现率、低离道率和低碰撞率，并在与人类驾驶协调度方面取得显著改进。

Abstract

A central challenge for autonomous vehicles is coordinating with humans. Therefore, incorporating realistic human agents is essential for scalable training and evaluation of autonomous driving systems in

autonomous vehicles simulation human agents multi-agent hr-ppo

发现论文，激发创造

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023

通过人类规正化搜索和学习，实现人类和人工智能的协同

利用针对人类的数据规范化搜索方法及行为克隆技术，开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作，该算法在 Hanabi 基准测试中表现出强大的协调性。

Oct, 2022

基于人工智能副驾驶优化的安全驾驶策略高效学习

本文介绍了一种新的基于人工智能协作的优化学习方法，即 HACO，它能够在保证训练安全的同时，并非常高效地利用少量的人类干预来训练出一个性能很高、泛化性很好、且适用于各种交通情景的自主驾驶代理。

Feb, 2022

具备深度强化学习的类人自动驾驶车辆跟随模型

该研究提出了一种基于深度强化学习的类人自动车跟随规划框架，并通过创新的奖励函数和反应延迟考虑等方法，将人的驾驶行为映射到速度、相对速度和车辆间距离等状态空间，实现了精度更高的自动驾驶策略学习，具有较强泛化能力，可以为智能驾驶算法和交通流模型的发展提供帮助。

Jan, 2019

自适应自动驾驶：多样驾驶行为的约束强化学习

通过自适应自动驾驶系统（AA）和约束深度强化学习（C-DRL）实现了模拟人类驾驶行为的独特框架，从而减少驾驶员干预的需求。研究以车辆跟随场景为重点，通过规则分类器提取自然驾驶数据并将其分为三种驾驶风格，采用深度神经网络（DNN）回归器预测跟随风格下的人类加速度，并使用 C-DRL 中的软行动者 - 评论家拉格朗日技术来学习人类安全驾驶策略，实验结果表明每个步骤的有效性，规则分类器能够区分驾驶风格，回归模型准确预测加速度，优于传统车辆跟随模型，并且 C-DRL 代理能够学习到适用于不同驾驶风格的最优驾驶策略。

Jul, 2024

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

基于参数化技能和先验知识的自动驾驶高效强化学习

ASAP-RL 提出了一种基于动作技能和专家先验知识的自动驾驶高效强化学习算法，旨在应对在复杂的拥堵道路条件下，传统驾驶策略难以扩展的问题。实验结果表明，相对于其他应用不同技能和先验知识的方法，该算法能够提高学习效率和驾驶性能。

May, 2023

闭环中学习真实交通代理

使用闭环模拟学习方法 RTR，在模拟和真实数据集中训练交通仿真策略，以提高交通规则遵守性和仿真的真实性。

Nov, 2023

自主训练自动驾驶车辆的自主算法

基于强化学习的自主车辆训练算法，最小化人为干预，通过学习进展实时调整训练过程，安全地重置车辆状态，取得更好的驾驶性能和较少的人工重置。

May, 2024