Jun, 2024

GenSafe:基于简化马尔可夫决策过程模型的通用安全增强器

TL;DR为了提高深度强化学习中系统的安全性,在这项工作中引入了一个名为 GenSafe 的通用安全增强器,通过模型降阶技术构建了一个低维度的 Proxy 来改善代理行为,从而提供了跨多种 SRL 方法的广泛兼容性,它不仅能够改善安全性能,特别是在早期学习阶段,还能够维持任务性能在一个令人满意的水平。