连续驾驶策略优化与闭环个性化课程
本论文介绍了一种名为 CRITICAL 的新型闭环自主车辆训练和测试框架,通过集成真实世界的交通动态、驾驶行为分析、替代性安全措施和一个可选的大型语言模型(LLM)组件,该框架能够生成各种各样的场景,重点关注强化学习(RL)代理在关键驾驶情况下的学习和性能差距。据证明,在数据生成与训练过程之间建立闭环反馈可以提高训练的学习速率,提升系统整体性能,增强安全弹性。我们的评估使用了近端策略优化(PPO)和 HighwayEnv 模拟环境进行,证明了关键案例生成和 LLM 分析的集成可以显著提高性能,表明 CRITICAL 有潜力提高自主车辆系统的鲁棒性,简化关键场景的生成,从而加快自主车辆代理的开发,扩展强化学习训练的范围,并改善自主车辆安全的验证工作。
Apr, 2024
针对自动驾驶汽车在处理长尾分布的驾驶场景中的罕见但关键问题时面临的障碍,本文采用对抗生成方法并使用 Stackelberg 驾驶模型以及领导者 - 追随者建模来有效地生成安全关键场景,并实现自动驾驶策略的持续改进,从而在高维场景中取得了优于基准方法的性能,不断生成越来越具有挑战性的场景,推动自动驾驶汽车能力的进一步发展。
Sep, 2023
本文针对自动驾驶代理的封闭式训练提出了一种新方法 —— 轨迹价值学习 (TRAVL)。采取多步预测进行规划,同时利用虚拟数据进行有效学习。实验证明,TRAVL 相比于其他模型,能够更快地学习并产生更安全的机动操作。
Jun, 2023
该研究旨在利用深度强化学习来创建人类行为类似的背景车辆,从而评估自动驾驶汽车的智能表现,并提出了一个包括安全、驾驶效率和交互效用的框架,用于评价和量化三个系统的智能绩效。
Jun, 2023
使用深度强化学习和累积前景理论,生成对抗性行为的新框架来检测自动驾驶汽车的风险弱点。通过在高保真硬件测试平台上进行案例研究,结果证明对抗行为能揭示被测试自动驾驶汽车的弱点。
Sep, 2023
通过融合多个替代模型并优化其组合系数以增强评估效率,我们开发了一种自适应测试环境,通过采用二次规划将优化问题表达为回归任务,并利用强化学习方法高效获取回归目标,实现了加速评估的效果验证。
Feb, 2024
使用现代化驾驶模拟器,提出检测和生成测试方案的有效机制,通过量化方案复杂度的度量标准来定义基于避免事故的复杂度度量标准,并对未来的自动驾驶车辆进行改进提供了洞见。
Mar, 2021
本文提出了一种基于自动生成的安全关键场景进行自动驾驶算法测试的基于生成模型的架构,并进行了针对几个不同场景的实验以证明其效率优于网格搜索或人工设计方法,并且适应性强。
Mar, 2020
评估自动驾驶车辆规划算法的性能需要模拟长尾交通场景。通过引入基于引导扩散模型的闭环模拟框架,我们提出一种新的方法来生成现实世界情景的安全关键场景,并通过增强的可控性使评估更全面和互动性更强。通过相关的引导目标,我们改善了道路进展,同时降低了碰撞和离道率,从而实现了这一目标。通过去噪过程中的对抗项,我们开发了一种模拟安全关键场景的新方法,使对抗性代理能够通过可行的操纵手段挑战规划器,同时场景中的所有代理均表现出反应灵敏和逼真的行为。我们通过使用 NuScenes 数据集的实证验证了我们的框架,证明了在现实性和可控性方面的改进。这些发现肯定了引导扩散模型为安全关键、互动式交通模拟提供了强大而通用的基础,进一步扩展了其在自动驾驶领域的实用性。请访问我们的项目页面(https URL)获取更多资源和演示。
Dec, 2023