Jan, 2024
电厂监控的安全强化学习算法
A Safe Reinforcement Learning Algorithm for Supervisory Control of Power Plants
Yixuan Sun, Sami Khairy, Richard B. Vilim, Rui Hu, Akshay J. Dave
TL;DR我们提出了基于近端策略优化的概率约束强化学习算法,通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标,从而在先进的核电厂设计中实现了最小违规距离和违规率。