代理人激励:因果视角
本文讨论强化学习代理如何通过篡改奖励信号等路径达到其终身目标,并提出了防范奖励篡改的设计原则,得出了结果受因果影响图的启示。
Aug, 2019
形式化了代理随决策而控制的变量及响应的变量的激励机制,并演示了在任何单一决策因果影响图中,检测这些激励机制的独特图形标准;引入了结构因果影响模型,它是影响图和结构因果模型框架的混合体;最后,说明了这些激励机制如何预测公正和人工智能安全应用中的代理激励。
Jan, 2020
本文提出了一个通用框架,用于训练安全代理,其天真的动机是不安全的。作为案例,本文讨论了操纵或欺骗性行为可以提高回报但应该避免的情况。我们在文中形式化地描述了中的“敏感”状态,它不应该作为达到目的的手段。我们使用因果影响图分析训练代理,以最大化动作对预期回报的因果效应,该因果效应不由敏感状态中介。通过使用该框架,我们进一步展示了如何统一和泛化现有方案。
Apr, 2022
通过在结构因果影响模型中引入意图的形式定义,我们展示了这个定义捕捉到意图的直观概念,并满足了过去工作设定的期望。此外,我们还展示了我们的定义如何与过去的概念相联系,包括实际因果关系和安全AI代理文献中的核心概念——工具性目标。最后,我们演示了如何从行为中推断强化学习代理和语言模型的意图。
Feb, 2024
现有的AI对齐方法假设偏好是静态的,这是不现实的:我们的偏好会改变,甚至可能受到与AI系统的交互的影响。为了阐明错误地假设偏好是静态的后果,我们引入了动态回报马尔可夫决策过程(DR-MDPs),明确地模拟偏好变化和AI对其的影响。我们发现,尽管静态偏好的假设具有方便性,但它可能破坏现有对齐技术的准确性,使其暗地里奖励AI系统以影响用户偏好,而用户可能并不真正想要这样。然后,我们探讨了潜在的解决方案。首先,我们提供了一个统一的视角,阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的AI影响。然后,我们从一开始就形式化了不同的AI对齐概念,考虑了偏好的变化。比较了8种这样的对齐概念的优缺点,发现它们要么倾向于引起不良的AI影响,要么过于风险回避,这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好,这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性,并成为针对人类偏好的变化性和可影响性明确考虑和应对的AI对齐实践的第一步。
May, 2024
本研究旨在解决多智能体系统中责任归属的问题,尤其是在考虑多重结果的背景下。提出了一种新的责任归属模型,并扩展至责任预期,展示了如何通过责任的考量来指导智能体选择符合其价值观的战略。研究发现,非主导的遗憾最小化策略能够可靠地降低智能体的预期责任程度。
Oct, 2024
本研究解决了多智能体规划中责任量化的不足,通过引入基于概率交替时序逻辑的责任测量框架,创新性地将行为与责任之间的概率关联。研究发现,提出的熵基责任测量能够首次动态捕捉结果的因果责任特性,为理解多智能体系统中代理人在结果实现或防止中的作用提供了新的视角。
Oct, 2024