Sep, 2024

重新审视安全探索中的安全强化学习

TL;DR本研究着眼于安全强化学习中的一个关键问题,即现有安全指标未能有效区分成本的累积方式。我们提出了一种新的指标——预期最大连续成本步数(EMCC),能够更准确评估不安全步骤的严重性,从而提高训练过程中的安全性。研究表明,该指标在区分延续性和偶然性安全违规方面表现出色,并通过一系列基准测试验证了其有效性。