BriefGPT.xyz
Ask
alpha
关键词
post-shielding technique
搜索结果 - 1
自适应屏蔽在黑盒环境中的安全强化学习
在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
PDF
a month ago
Prev
Next