自主空中移动的可解释和安全强化学习

Nov, 2022

自主空中移动的可解释和安全强化学习

Explainable and Safe Reinforcement Learning for Autonomous Air Mobility

Lei Wang, Hongyu Yang, Yi Lin, Suwan Yin, Yuankai Wu

TL;DR提出一种深度强化学习（DRL）控制器，通过将耦合的 Q 值学习模型分解为安全感知和效率两个模型，利用周围入侵者的信息作为输入来帮助解决自主自由飞行的冲突。通过该控制器，可以在克服 DRL 控制器的解释性和安全性问题的情况下提高控制任务的性能，同时提供关于环境安全情况的丰富信息。

Abstract

Increasing traffic demands, higher levels of automation, and communication enhancements provide novel design opportunities for future air traffic controllers (ATCs). This article presents a novel deep reinforcement learning (DRL) controller to aid →

deep reinforcement learning conflict resolution air traffic control safety issues adversarial attacks

发现论文，激发创造

基于可解释的深度强化学习的无人机导航与规划中的鲁棒性对抗攻击检测

采用可解释的深度学习方法为指导和规划的无人机构建了一个仿真环境，其中包括障碍和对抗性攻击，并建立了对此的对抗性攻击检测器

Jun, 2022

深度强化学习在道路交通路口驾驶中的自我意识安全性

本研究通过引入注意力机制的自我感知模块，根据碰撞率、成功率、停滞率和总奖励等四个指标，对交叉口和环岛等复杂路口环境下的自主驾驶深度强化学习模型进行安全性能评估，并发现引入自我感知模块的 DQN 可显著提高安全表现。

Jan, 2022

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

深度强化学习避碰系统的奖励函数优化

该研究探讨使用代理优化器来调整深度强化学习算法，以优化多种航空器平台，包括无人机的碰撞回避能力，从而提高安全性和操作可行性。

Dec, 2022

自主高速公路驾驶增强安全的深度强化学习

本文提出了一种安全的深度强化学习自动驾驶系统，采用了基于规则和基于学习的方法，其中包括手工制作的安全模块和动态学习的安全模块，通过模拟环境的实验结果证明了其优异的性能。

Oct, 2019

基于强化学习的空中交通冲突解除

本文使用强化学习算法，最小化无人机避障中的水平分离问题，将避障策略转化为一组航迹点，以满足安全需求，并在高保真模拟和实际飞行演示中进行了评估。

Jan, 2023

具有双重鲁棒性的安全强化学习

提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题，包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上，提出了一种双重策略迭代方案，同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外，还设计了一种用于实际实现的深度强化学习算法，称为 DRAC。安全关键的基准评估表明，DRAC 在所有情景下（无对手、安全对手、性能对手）实现了高性能和持续的安全性，并且明显优于所有基准线。

Sep, 2023

如何确保安全的控制策略？走向城市公共交通自主运营的强化学习

提出了一种用于安全智能控制城市轨道交通自主运营列车的 SSA-DRL 框架，结合了线性时态逻辑、强化学习和蒙特卡洛树搜索，可以生成满足速度约束、时间表约束和优化运营流程的安全控制指令序列。通过消融实验和与计划操作方案的比较，评估了该框架在城市轨道交通自主运营中的决策效果。

Nov, 2023

安全强化学习中的恢复学习

通过学习算法构建安全控制器以实现安全强化学习，提出了三阶段的架构 TU-Recovery Architecture，并通过辅助奖励来缓解对抗现象，以提高安全控制器在任务训练中的回报率和约束违规率。

Sep, 2023