Apr, 2023

基于控制不变集增强型强化学习的过程控制:提高采样效率和保证稳定性

TL;DR本文提出了一种新的强化学习培训方法,称为控制不变集(CIS)增强RL,该方法通过控制不变集的优势改善稳定性和采样效率,其中包括离线和在线的两个学习阶段,使用CIS来设计奖励、采样初始状态和状态重置程序,并在状态不在CIS时重新训练 RL,以确保在线稳定;在模拟化学反应器中进行应用,结果表明,在离线训练期间,采样效率显著提高,并且实现了闭环稳定性。