BriefGPT.xyz
Ask
alpha
关键词
counterfactual harm
搜索结果 - 1
无伤害:一种针对安全强化学习的对比方法
通过对学习策略与默认的安全策略进行比较,我们提出了一种对反事实伤害进行约束的方法,在考虑不确定性和复杂环境表示的基础上实现了学习更安全策略的目的。
PDF
2 months ago
Prev
Next