多约束安全强化学习与目标抑制在安全关键应用中的应用
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024
本文介绍了两项新的安全强化学习方法,OptLayerPolicy 和 self-improving hard constraints,将约束函数与 RL 形式解耦,以提高初始效用和准确性,提供了在模拟的多能源系统案例研究中实现 92.4%(OptLayerPolicy)的初始效用和 104.9%(GreyOptLayerPolicy)的策略的结果。
Apr, 2023
基于多目标策略优化框架的新型无模型安全强化学习算法引入,通过环境奖励函数和安全评论家对策略进行优化,以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件,并引入了一个攻击参数,允许对所述权衡进行微调。实证结果表明,与六种不同最新颖的 Safe RL 方法相比,提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数,并获得更高或竞争性的策略回报,在安全关键应用方面表现出明显的优越性。
Feb, 2024
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
提出一种基于长短期约束的安全强化学习算法,用于优化端到端自动驾驶的训练过程,实现连续状态和行动任务中更高的安全性和长距离决策任务中更高的探索性能。
Mar, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
在自主机器人领域,确保复杂和动态环境下的安全性和可靠性仍然是一个重大挑战。通过引入安全约束,安全强化学习解决这些问题,但在复杂驾驶环境等复杂环境中仍面临挑战。为了应对这些挑战,我们提出了安全约束奖励(Safe CoR)框架,这是一种利用两种类型的专家演示(重点是性能优化的奖励专家演示和优先考虑安全性的安全专家演示)的新方法。通过利用约束奖励(CoR),我们的框架指导智能体平衡奖励总和的性能目标与安全约束。我们在包括 safety gym、metadrive 和真实世界的 Jackal 平台在内的多种环境中测试了所提出的框架。在真实世界的 Jackal 平台上,我们提出的框架提高了算法的性能 39% 并减少了约束违规 88%,证明了该框架的有效性。通过这种创新方法,我们期望在现实世界的性能方面取得重大进展,从而在安全可靠的自主机器人领域产生深远影响。
Jul, 2024
利用多目标优化(MOO)的统一框架来解决复杂的多约束(MC)安全强化学习(safe RL)问题,通过操纵约束条件的梯度,引入梯度塑形(GradS)方法来改善训练效率,实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果,同时对约束数量的扩展性表现良好。
Dec, 2023