Feb, 2023

无地图导航中的安全深度强化学习在线安全属性收集和优化

TL;DR在实现深度强化学习 (DRL) 的真实场景中,安全至关重要。本文提出了一种名为在线属性的收集和改进 (CROP) 框架,以在训练阶段设计属性,用于识别不安全的相互作用并将其转化为安全属性,以在易受攻击的安全关键任务中使用。最终的评估结果显示与以往安全 DRL 方法相比,使用 CROP 计算违规指标更能提高返回值和降低违规次数。