May, 2024

自适应屏蔽在黑盒环境中的安全强化学习

TL;DR在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。