与可变且可影响奖励函数保持AI对齐

May, 2024

与可变且可影响奖励函数保持AI对齐

AI Alignment with Changing and Influenceable Reward Functions

Micah Carroll, Davis Foote, Anand Siththaranjan, Stuart Russell, Anca Dragan

TL;DR现有的AI对齐方法假设偏好是静态的，这是不现实的：我们的偏好会改变，甚至可能受到与AI系统的交互的影响。为了阐明错误地假设偏好是静态的后果，我们引入了动态回报马尔可夫决策过程(DR-MDPs)，明确地模拟偏好变化和AI对其的影响。我们发现，尽管静态偏好的假设具有方便性，但它可能破坏现有对齐技术的准确性，使其暗地里奖励AI系统以影响用户偏好，而用户可能并不真正想要这样。然后，我们探讨了潜在的解决方案。首先，我们提供了一个统一的视角，阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的AI影响。然后，我们从一开始就形式化了不同的AI对齐概念，考虑了偏好的变化。比较了8种这样的对齐概念的优缺点，发现它们要么倾向于引起不良的AI影响，要么过于风险回避，这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好，这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性，并成为针对人类偏好的变化性和可影响性明确考虑和应对的AI对齐实践的第一步。

Abstract

Existing ai alignment approaches assume that preferences are static, which is unrealistic: our preferences change, and may even be influenced by our interactions with AI systems themselves. To clarify the consequences of incorrectly assuming static preferences, we introduce