Sep, 2023

安全强化学习中的恢复学习

TL;DR通过学习算法构建安全控制器以实现安全强化学习,提出了三阶段的架构 TU-Recovery Architecture,并通过辅助奖励来缓解对抗现象,以提高安全控制器在任务训练中的回报率和约束违规率。