KDDJun, 2021

基于动作集的安全电网管理策略优化

TL;DR本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题,同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中,我们的解决方案在两个轨道中均名列第一,能够有效管理电网并确保其地安全性。