Jul, 2023

强化学习的安全裕度

TL;DR任何自主控制器在某些情况下都可能不安全,定量识别这些不安全情况的能力对于及时引起人类监督至关重要。本研究展示了真正危急情况的临界性可以被鲁棒地定义为随机行动导致的奖励减少的平均值。可以将实时计算的代理临界性度量与真正的临界性进行比较,并展示如何利用这些代理度量生成安全裕度,直接将潜在错误行动的后果与整体性能损失联系起来。我们在 Atari 环境中评估了来自 APE-X 和 A3C 的学习策略,并展示了安全裕度随着代理逼近失败状态而减少。将安全裕度整合到监测已部署代理的程序中,可以实时识别潜在的灾难性情况。