无地图导航中的安全深度强化学习在线安全属性收集和优化

Feb, 2023

无地图导航中的安全深度强化学习在线安全属性收集和优化

Online Safety Property Collection and Refinement for Safe Deep Reinforcement Learning in Mapless Navigation

Luca Marzari, Enrico Marchesini, Alessandro Farinelli

TL;DR在实现深度强化学习 (DRL) 的真实场景中，安全至关重要。本文提出了一种名为在线属性的收集和改进 (CROP) 框架，以在训练阶段设计属性，用于识别不安全的相互作用并将其转化为安全属性，以在易受攻击的安全关键任务中使用。最终的评估结果显示与以往安全 DRL 方法相比，使用 CROP 计算违规指标更能提高返回值和降低违规次数。

Abstract

Safety is essential for deploying deep reinforcement learning (DRL) algorithms in real-world scenarios. Recently, verification approaches have been proposed to allow quantifying the number of violations of a DRL

deep reinforcement learning verification approaches collection and refinement of online properties safety-critical tasks robotic mapless navigation

发现论文，激发创造

通过验证任务级别属性提供安全的深度强化学习

本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态，从而更好地实现安全深度强化学习的方法，并在机器人地图导航任务中进行了实验研究，结果表明相较于进行 Safe DRL 的基线策略，使用违规指标的策略在性能上有了更好的表现，且能够大幅减少访问不安全状态的数量。

Feb, 2023

CROP: 基于紧凑重塑观察处理的分布偏移鲁棒性强化学习

本文提出 Compact Reshaped Observation Processing (CROP) 方法，通过减少用于策略优化的状态信息来提高数据效率和泛化能力，为完全可观测的观察和行动空间制定了三个 CROP，并在分布式安全格网世界中进行了实证展示。同时，与两个不同大小的程序生成的迷宫进行了基准比较，表明了 CROP 的改进。

Apr, 2023

CROP：基于模型的线下策略优化的保守奖励

通过引入保守性估计奖励的方法，本论文提出了一种创新的基于模型的离线增强学习算法，名为 CROP，该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励，从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中，CROP 的性能与最先进的基准算法相当。值得注意的是，CROP 建立了离线和在线增强学习之间的创新连接，突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。

Oct, 2023

通过函数平滑证明强化学习的稳健策略

本文介绍了一种名为 CROP 的统一框架，该框架旨在提供针对行动和奖励水平的稳健性认证，通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法，包括 Atari 游戏和 Highway、CartPole 等环境，并证明了认证的准确性。

Jun, 2021

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

强化学习算法学习属性的运行时验证

该研究提出了针对强化学习算法的运行时验证技术，用于预测学习阶段是否满足质量和及时性的期望，并提出了三个验证属性和相应的监测与评估步骤。

Nov, 2023

基于深度强化学习的无地图人群导航移动机器人感知移动风险

提出了一种基于深度强化学习和碰撞概率（Collision Probability，CP）的机器人人群导航方法，以解决机器人导航不稳定性问题。在不同密度的人群行为情景中进行了测试，并与当前最先进的 DRL 方法进行了比较，结果表明该方法表现出色，而且高度泛化。

Apr, 2023

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022