关键词causal influence diagram
搜索结果 - 2
- AAAI路径特定目标以确保智能体奖励的安全性
本文提出了一个通用框架,用于训练安全代理,其天真的动机是不安全的。作为案例,本文讨论了操纵或欺骗性行为可以提高回报但应该避免的情况。我们在文中形式化地描述了中的 “敏感” 状态,它不应该作为达到目的的手段。我们使用因果影响图分析训练代理,以 - AAAI塑造行为的激励
形式化了代理随决策而控制的变量及响应的变量的激励机制,并演示了在任何单一决策因果影响图中,检测这些激励机制的独特图形标准;引入了结构因果影响模型,它是影响图和结构因果模型框架的混合体;最后,说明了这些激励机制如何预测公正和人工智能安全应用中