BriefGPT.xyz
Ask
alpha
关键词
violation metric
搜索结果 - 2
通过验证任务级别属性提供安全的深度强化学习
本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态,从而更好地实现安全深度强化学习的方法,并在机器人地图导航任务中进行了实验研究,结果表明相较于进行 Safe DRL 的基线策略,使用违规指标的策略在性能上有了更好的表现,且能够大幅
→
PDF
a year ago
使用规则书指定责任、伦理和文化感知行为
该论文介绍了一种定义自主体所需行为的新方法 ——“规则书”,包括一系列 “规则”,每个规则类似于对可能结果(“实现”)的违规度量,并通过优先级部分排序。通过规则书的语义,我们可以对实现的集合施加预排序,研究了规则书的组合特性,并得出了如何在
→
PDF
5 years ago
Prev
Next