Jul, 2023

近似基于模型的安全强化学习护盾

TL;DR我们提出了近似基于模型的屏蔽算法,用于验证学习强化学习策略相对于给定安全约束的性能,与其他安全感知方法相比,在一组具有状态相关安全标签的 Atari 游戏上表现出卓越的性能。