May, 2024

无伤害:一种针对安全强化学习的对比方法

TL;DR通过对学习策略与默认的安全策略进行比较,我们提出了一种对反事实伤害进行约束的方法,在考虑不确定性和复杂环境表示的基础上实现了学习更安全策略的目的。