Jul, 2023

Safe DreamerV3:基于世界模型的安全强化学习

TL;DR本文介绍了一种将拉格朗日方法和规划方法融合到世界模型中的算法 Safe DreamerV3,这是首个在 Safety-Gymnasium benchmark 中能够在低维和仅依靠视觉的任务中实现近乎零成本的 SafeRL 算法。