本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题,并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中,RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。
May, 2022
本文提出了可行行动者 - 评论家 (FAC) 算法,是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法,通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数,我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。
May, 2021
在安全强化学习领域,通过结合表示学习和可行性导向目标,我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning(FCSRL)的新框架,以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中,我们的方法能够学习到更好的安全感知嵌入并取得优越的性能,超过了先前的表示学习基线。
May, 2024
通过可行区域定义的安全约束,最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR(FeasIbility-guided Safe Offline RL)是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。
Jan, 2024
本文提出了一种基于深度神经网络优化器的约束优化求解方法,将约束作为 Lyapunov 函数并在策略参数更新动态上施加新的线性约束以达到约束满足的效果,并改进了现有方法在优化策略时的瓶颈,其在数值优化和避障导航等场景中体现了出色的性能。
Jun, 2020
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了 40%,约 10 倍少的约束违规行为。
通过模仿学习和轨迹标记的方法,解决强化学习中的约束问题,并在实验中展示了其优越性能。
Dec, 2023