BriefGPT.xyz
Ask
alpha
关键词
safe agents
搜索结果 - 1
AAAI
路径特定目标以确保智能体奖励的安全性
本文提出了一个通用框架,用于训练安全代理,其天真的动机是不安全的。作为案例,本文讨论了操纵或欺骗性行为可以提高回报但应该避免的情况。我们在文中形式化地描述了中的 “敏感” 状态,它不应该作为达到目的的手段。我们使用因果影响图分析训练代理,以
→
PDF
2 years ago
Prev
Next