Oct, 2022

利用随机潜在表示从像素学习安全强化学习

TL;DR本文提出了一种基于像素观察安全的强化学习方法,在部分可观察的马尔可夫决策过程框架下,使用一种新颖的安全评估方法来训练安全策略,使用基准数据证明了其相对于现有方法具有竞争性的性能和满足安全约束条件。