应用多智能体对抗性强化学习创建基于规则代理的故障场景制造器及其在自主驾驶中的应用

Mar, 2019

应用多智能体对抗性强化学习创建基于规则代理的故障场景制造器及其在自主驾驶中的应用

Failure-Scenario Maker for Rule-Based Agent using Multi-agent Adversarial Reinforcement Learning and its Application to Autonomous Driving

HTML

PDF

Akifumi Wachi

TL;DR研究了在多智能体环境中，为包括基于规则的代理在内的回报学习问题。提出了一种通过训练对抗智能体来有效地发现失败场景的方法，并通过简单环境和自动驾驶模拟器展示了该方法的有效性。

Abstract

We examine the problem of adversarial reinforcement learning for multi-agent domains including a rule-based agent. Rule-based algorithms a

发现论文，激发创造

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在“Desires”策略和难以控制的路径规划之间实现平衡。

Oct, 2016

严格的代理评估:揭示灾难性失败的对抗方法

本文提出了一种基于对抗评估的学习系统评估方法，旨在解决现有强化学习代理评估方法可能会缺失失败情况的问题，通过对抗选择情况进行评估，可大幅缩短评估时间，实验结果表明该方法在可靠性和效率上都有极大的提升。

Dec, 2018

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了Robust Adversarial Reinforcement Learning和Neural Fictitious Self Play算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

使用搜索方法的深度强化学习智能体测试方法

利用遗传算法和机器学习模型，提出了 STARLA，一种搜索 DRL 代理策略的方法。我们将其应用于广泛使用的 Deep-Q-Learning 代理，表明它比随机测试更能发现与代理策略有关的故障，并研究了如何提取描述 DRL 代理故障情况的规则。

Jun, 2022

DeFIX:基于强化学习的模仿学习自动驾驶故障场景检测和修复

本文基于强化学习（RL）提出了DETECT and FIX（DeFIX）方法来解决自主驾驶中违反交通规则的问题，通过提取违规点和在这些违规区域上重新构建小场景来训练RL agent以修复IL agent的缺陷，通过对目前最具挑战性的自主驾驶地图（Town05）的测试，表明DeFIX方法具有很好的性能和鲁棒性。

Oct, 2022

使用代理模型测试深度强化学习代理

使用基于搜索的方法的Indago工具，通过在深度强化学习中训练分类器来预测特定环境配置下机器学习代理的故障情况，以此作为适应度函数来生成更多故障环境配置，实验结果表明，此方法比现有技术多发现50％的深度强化学习代理的故障

May, 2023

ReMAV: 为自动驾驶车辆寻找可能故障事件的奖励建模

通过使用离线轨迹来分析自动驾驶车辆的现有行为，并确定找到故障事件的概率的适当阈值，我们提出了一个黑盒测试框架ReMAV。通过创建行为表示，突出显示可能存在不确定行为的区域，我们的奖励建模技术帮助提高效率，无需进行计算和低效的主动对抗学习技术。实验结果表明，该框架可用于了解被测试自动驾驶车辆的现有弱点，并只攻击这些区域，从而提高故障事件的发生率。

Aug, 2023

基于AutoDRIVE生态系统的合作与竞争自主车辆多智能体深度强化学习

该论文介绍了一种用于自主车辆内部具有合作和竞争行为的模块化且可并行化的多智能体深度强化学习框架。通过使用AutoDRIVE生态系统来培养和部署多智能体强化学习策略，并利用具有独特特性和能力的两个缩小比例的自主车辆平台Nigel和F1TENTH来开发具有物理准确性和图形逼真性的数字孪生模型。

Sep, 2023

强化学习用于自动驾驶系统在线测试的复制与扩展研究

复制和扩展了前一次经验研究，研究表明引入强化学习与多目标搜索相结合的方式，在深度神经网络系统的在线测试中优于其他技术（随机搜索和多目标搜索）。新的 RL 代理能够收敛到一个有效策略，明显优于随机测试，并且揭示了进一步探索如何充分利用 RL 进行在线 ADS 测试的可能改进方向。

Mar, 2024

利用自然人类驾驶先验生成对抗性安全关键场景

本研究解决了自主车辆决策系统评估中获取真实且具挑战性的安全关键测试场景的难题。通过利用自然人类驾驶先验和强化学习技术，我们提出了一种自然对抗场景生成方案，能够大规模生成多样且真实的测试场景。我们的研究显示，该模型能够生成覆盖自然性与对抗性的真实安全关键测试场景，为自主车辆的开发奠定了基础。

Aug, 2024