Jan, 2024

电厂监控的安全强化学习算法

TL;DR我们提出了基于近端策略优化的概率约束强化学习算法,通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标,从而在先进的核电厂设计中实现了最小违规距离和违规率。