多能源管理系统的自我完善硬约束条件下安全的强化学习

Apr, 2023

多能源管理系统的自我完善硬约束条件下安全的强化学习

Safe reinforcement learning with self-improving hard constraints for multi-energy management systems

Glenn Ceusters, Muhammad Andy Putratama, Rüdiger Franke, Ann Nowé, Maarten Messagie

TL;DR本文介绍了两项新的安全强化学习方法，OptLayerPolicy 和 self-improving hard constraints，将约束函数与 RL 形式解耦，以提高初始效用和准确性，提供了在模拟的多能源系统案例研究中实现 92.4%（OptLayerPolicy）的初始效用和 104.9%（GreyOptLayerPolicy）的策略的结果。

Abstract

safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself

safe reinforcement learning multi-energy management systems optlayerpolicy hard constraints utility

发现论文，激发创造

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

OptLayer - 实用的深度强化学习受限优化技术在实际应用中的研究

提出了一种新的强化学习架构 OptLayer，该架构保证机器人执行的所有行为都是安全的，使得机器人的深度强化学习应用范围从模拟世界扩大到实际世界，并应用于机器人的伸手任务中。

Sep, 2017

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

安全优化增强学习通过多目标策略优化

基于多目标策略优化框架的新型无模型安全强化学习算法引入，通过环境奖励函数和安全评论家对策略进行优化，以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件，并引入了一个攻击参数，允许对所述权衡进行微调。实证结果表明，与六种不同最新颖的 Safe RL 方法相比，提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数，并获得更高或竞争性的策略回报，在安全关键应用方面表现出明显的优越性。

Feb, 2024

模仿优秀，避免恶劣：安全强化学习的增量方法

通过模仿学习和轨迹标记的方法，解决强化学习中的约束问题，并在实验中展示了其优越性能。

Dec, 2023

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

基于动作集的安全电网管理策略优化

本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题，同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中，我们的解决方案在两个轨道中均名列第一，能够有效管理电网并确保其地安全性。

Jun, 2021