May, 2023

控制不变集增强型安全强化学习:提高采样效率,保证稳定性和鲁棒性

TL;DR本文提出了一种新颖的 RL 训练方法,控制不变集增强 RL,以提高样本效率和稳定性保证,通过 CIS 在奖励设计、初始状态采样和状态重置程序中实现,同时加入安全监管人员以保证稳定性,研究结果表明这种方法在离线训练中能够显著提高样本效率,在在线实现中能够保证闭环稳定性。