FISAR:基于深度神经网络优化的前不变安全强化学习
本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。
Oct, 2019
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了 40%,约 10 倍少的约束违规行为。
Jun, 2020
本文研究安全强化学习问题,提出了一种名为可行策略迭代算法的间接安全强化学习方法,该算法通过使用一个称为约束衰减函数的可行性函数表示可行域,实现了保证策略的约束和可行性并达到优化目标。实验表明,可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。
Apr, 2023
本文提出了一种能处理一大类 RL 任务约束的算法方案,这些约束需要某些向量测量(如行动使用)的期望值位于凸集中,可以捕获以前研究的约束(如安全和接近专家),也可以实现新类别的约束(如多样性)。
Jun, 2019
通过可行区域定义的安全约束,最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR(FeasIbility-guided Safe Offline RL)是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。
Jan, 2024
本文介绍了两项新的安全强化学习方法,OptLayerPolicy 和 self-improving hard constraints,将约束函数与 RL 形式解耦,以提高初始效用和准确性,提供了在模拟的多能源系统案例研究中实现 92.4%(OptLayerPolicy)的初始效用和 104.9%(GreyOptLayerPolicy)的策略的结果。
Apr, 2023
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
在安全强化学习领域,通过结合表示学习和可行性导向目标,我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning(FCSRL)的新框架,以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中,我们的方法能够学习到更好的安全感知嵌入并取得优越的性能,超过了先前的表示学习基线。
May, 2024