Feb, 2024

代理人行动的原因:意图和目标

TL;DR通过在结构因果影响模型中引入意图的形式定义,我们展示了这个定义捕捉到意图的直观概念,并满足了过去工作设定的期望。此外,我们还展示了我们的定义如何与过去的概念相联系,包括实际因果关系和安全 AI 代理文献中的核心概念 —— 工具性目标。最后,我们演示了如何从行为中推断强化学习代理和语言模型的意图。