Jan, 2024

人工智能代理的非追求权力的稳定性量化

TL;DR如果一个 AI 代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的;我们研究了 AI 对齐的一个核心问题 —— 我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于追求权力,追求权力的代理是不安全的;我们以马尔科夫决策过程为模型,研究代理是否会抵抗关闭的关键类型的追求权力;我们还展示了在某些情况下安全是不稳定的,微小的扰动可能导致代理永远不关闭;我们还通过在 MDP 上定义一个双模拟度量来研究近似最优策略的情况,证明微小的扰动不会导致代理关闭所需时间变长;我们还研究了满足特定约束的 MDP 的策略,该约束适用于各种模型,包括语言模型,在这里,我们量化了不关闭的概率增加速度的界限:通过在 MDP 上定义一个度量;证明不关闭的概率作为 MDP 上的函数是下半连续的;并且给出了这个函数减小的速度上界。