Apr, 2023

多能源管理系统的自我完善硬约束条件下安全的强化学习

TL;DR本文介绍了两项新的安全强化学习方法,OptLayerPolicy 和 self-improving hard constraints,将约束函数与 RL 形式解耦,以提高初始效用和准确性,提供了在模拟的多能源系统案例研究中实现 92.4%(OptLayerPolicy)的初始效用和 104.9%(GreyOptLayerPolicy)的策略的结果。