基于已知约束函数的多能源管理系统安全强化学习

Jul, 2022

基于已知约束函数的多能源管理系统安全强化学习

Safe reinforcement learning for multi-energy management systems with known constraint functions

Glenn Ceusters, Luis Ramirez Camargo, Rüdiger Franke, Ann Nowé, Maarten Messagie

TL;DR本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Abstract

reinforcement learning (RL) is a promising optimal control technique for multi-energy management systems. It does not require a model a priori - reducing the upfront and ongoing project-specific engineering effor

reinforcement learning multi-energy management systems safety constraint hard-constraint satisfaction guarantee policy

发现论文，激发创造

多能源管理系统的自我完善硬约束条件下安全的强化学习

本文介绍了两项新的安全强化学习方法，OptLayerPolicy 和 self-improving hard constraints，将约束函数与 RL 形式解耦，以提高初始效用和准确性，提供了在模拟的多能源系统案例研究中实现 92.4%（OptLayerPolicy）的初始效用和 104.9%（GreyOptLayerPolicy）的策略的结果。

Apr, 2023

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020