连续驾驶策略优化与闭环个性化课程

Sep, 2023

连续驾驶策略优化与闭环个性化课程

Continual Driving Policy Optimization with Closed-Loop Individualized Curricula

Haoyi Niu, Yizhou Xu, Xingjian Jiang, Jianming Hu

TL;DR通过闭环个性化课程框架（CLIC）阶段性评估自动驾驶模型的能力，并根据评估结果为其提供个性化的训练，以在大规模场景库中优化驾驶策略，提高自动驾驶车辆在复杂情况下的表现。

Abstract

The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in →

autonomous vehicles scenario-based autonomous driving av models closed-loop individualized curricula driving policy optimization

发现论文，激发创造

通过语言模型整合和关键场景生成增强自主车辆训练

本论文介绍了一种名为 CRITICAL 的新型闭环自主车辆训练和测试框架，通过集成真实世界的交通动态、驾驶行为分析、替代性安全措施和一个可选的大型语言模型（LLM）组件，该框架能够生成各种各样的场景，重点关注强化学习（RL）代理在关键驾驶情况下的学习和性能差距。据证明，在数据生成与训练过程之间建立闭环反馈可以提高训练的学习速率，提升系统整体性能，增强安全弹性。我们的评估使用了近端策略优化（PPO）和 HighwayEnv 模拟环境进行，证明了关键案例生成和 LLM 分析的集成可以显著提高性能，表明 CRITICAL 有潜力提高自主车辆系统的鲁棒性，简化关键场景的生成，从而加快自主车辆代理的开发，扩展强化学习训练的范围，并改善自主车辆安全的验证工作。

Apr, 2024

基于场景的闭环自动驾驶中的 Stackelberg 驾驶员模型的持续策略改进

针对自动驾驶汽车在处理长尾分布的驾驶场景中的罕见但关键问题时面临的障碍，本文采用对抗生成方法并使用 Stackelberg 驾驶模型以及领导者 - 追随者建模来有效地生成安全关键场景，并实现自动驾驶策略的持续改进，从而在高维场景中取得了优于基准方法的性能，不断生成越来越具有挑战性的场景，推动自动驾驶汽车能力的进一步发展。

Sep, 2023

重新思考自主驾驶的闭环训练

本文针对自动驾驶代理的封闭式训练提出了一种新方法 —— 轨迹价值学习 (TRAVL)。采取多步预测进行规划，同时利用虚拟数据进行有效学习。实验证明，TRAVL 相比于其他模型，能够更快地学习并产生更安全的机动操作。

Jun, 2023

自动驾驶汽车演进测试场景生成方法和智能评估框架

该研究旨在利用深度强化学习来创建人类行为类似的背景车辆，从而评估自动驾驶汽车的智能表现，并提出了一个包括安全、驾驶效率和交互效用的框架，用于评价和量化三个系统的智能绩效。

Jun, 2023

Adv3D: 通过封闭环模拟生成安全关键的三维物体

使用实际场景进行闭环传感器模拟以评估自主性能，通过优化车辆形状来研究场景外观变化对自主性能的影响。

Nov, 2023

应用人类风险认知的对抗驾驶行为生成：自动驾驶车辆评估

使用深度强化学习和累积前景理论，生成对抗性行为的新框架来检测自动驾驶汽车的风险弱点。通过在高保真硬件测试平台上进行案例研究，结果证明对抗行为能揭示被测试自动驾驶汽车的弱点。

Sep, 2023

基于密集强化学习的自动驾驶车辆适应性测试环境生成

通过融合多个替代模型并优化其组合系数以增强评估效率，我们开发了一种自适应测试环境，通过采用二次规划将优化问题表达为回归任务，并利用强化学习方法高效获取回归目标，实现了加速评估的效果验证。

Feb, 2024

自动驾驶车辆安全测试场景的生成和特征描述

使用现代化驾驶模拟器，提出检测和生成测试方案的有效机制，通过量化方案复杂度的度量标准来定义基于避免事故的复杂度度量标准，并对未来的自动驾驶车辆进行改进提供了洞见。

Mar, 2021

学会碰撞：一种自适应的安全关键场景生成方法

本文提出了一种基于自动生成的安全关键场景进行自动驾驶算法测试的基于生成模型的架构，并进行了针对几个不同场景的实验以证明其效率优于网格搜索或人工设计方法，并且适应性强。

Mar, 2020

可控的安全关键闭环交通仿真：通过导向扩散

评估自动驾驶车辆规划算法的性能需要模拟长尾交通场景。通过引入基于引导扩散模型的闭环模拟框架，我们提出一种新的方法来生成现实世界情景的安全关键场景，并通过增强的可控性使评估更全面和互动性更强。通过相关的引导目标，我们改善了道路进展，同时降低了碰撞和离道率，从而实现了这一目标。通过去噪过程中的对抗项，我们开发了一种模拟安全关键场景的新方法，使对抗性代理能够通过可行的操纵手段挑战规划器，同时场景中的所有代理均表现出反应灵敏和逼真的行为。我们通过使用 NuScenes 数据集的实证验证了我们的框架，证明了在现实性和可控性方面的改进。这些发现肯定了引导扩散模型为安全关键、互动式交通模拟提供了强大而通用的基础，进一步扩展了其在自动驾驶领域的实用性。请访问我们的项目页面（https URL）获取更多资源和演示。

Dec, 2023