自主空中移动的可解释和安全强化学习
采用可解释的深度学习方法为指导和规划的无人机构建了一个仿真环境,其中包括障碍和对抗性攻击,并建立了对此的对抗性攻击检测器
Jun, 2022
本研究通过引入注意力机制的自我感知模块,根据碰撞率、成功率、停滞率和总奖励等四个指标,对交叉口和环岛等复杂路口环境下的自主驾驶深度强化学习模型进行安全性能评估,并发现引入自我感知模块的 DQN 可显著提高安全表现。
Jan, 2022
该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现,将学习问题定义为自主系统与环境干扰之间的两人博弈,扩展为半竞争的情况,结果表明对手更好地捕捉了有意义的干扰,从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。
Mar, 2019
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。
Sep, 2023
本文提出了一种安全的深度强化学习自动驾驶系统,采用了基于规则和基于学习的方法,其中包括手工制作的安全模块和动态学习的安全模块,通过模拟环境的实验结果证明了其优异的性能。
Oct, 2019
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC 在所有情景下(无对手、安全对手、性能对手)实现了高性能和持续的安全性,并且明显优于所有基准线。
Sep, 2023
提出了一种用于安全智能控制城市轨道交通自主运营列车的 SSA-DRL 框架,结合了线性时态逻辑、强化学习和蒙特卡洛树搜索,可以生成满足速度约束、时间表约束和优化运营流程的安全控制指令序列。通过消融实验和与计划操作方案的比较,评估了该框架在城市轨道交通自主运营中的决策效果。
Nov, 2023
通过学习算法构建安全控制器以实现安全强化学习,提出了三阶段的架构 TU-Recovery Architecture,并通过辅助奖励来缓解对抗现象,以提高安全控制器在任务训练中的回报率和约束违规率。
Sep, 2023