人工智能代理的非追求权力的稳定性量化

Jan, 2024

人工智能代理的非追求权力的稳定性量化

Quantifying stability of non-power-seeking in artificial agents

Evan Ryan Gunter, Yevgeny Liokumovich, Victoria Krakovna

TL;DR如果一个 AI 代理在一个设置中被认为是安全的，那么它在一个类似的新设置中也是安全的；我们研究了 AI 对齐的一个核心问题 —— 我们训练和测试模型在一定的环境中，但在部署中需要确保在测试中被认为是安全的模型仍然是安全的；我们的安全概念基于追求权力，追求权力的代理是不安全的；我们以马尔科夫决策过程为模型，研究代理是否会抵抗关闭的关键类型的追求权力；我们还展示了在某些情况下安全是不稳定的，微小的扰动可能导致代理永远不关闭；我们还通过在 MDP 上定义一个双模拟度量来研究近似最优策略的情况，证明微小的扰动不会导致代理关闭所需时间变长；我们还研究了满足特定约束的 MDP 的策略，该约束适用于各种模型，包括语言模型，在这里，我们量化了不关闭的概率增加速度的界限：通过在 MDP 上定义一个度量；证明不关闭的概率作为 MDP 上的函数是下半连续的；并且给出了这个函数减小的速度上界。

Abstract

We investigate the question: if an ai agent is known to be safe in one setting, is it also safe in a new setting similar to the first? This is a core question of AI alignment--we train and test models in a certain environment, but deploy them in another, and we need to guarantee that m

ai agent safety power-seeking shutdown markov decision processes

发现论文，激发创造

避免人工智能寻求权力

本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法，阐述了其在仿真环境中的有效性，并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题，这可能导致抵制校正。

Jun, 2022

针对非稳态 MDPs 的安全策略改进

为了确保在具有高风险影响的平稳变化的非稳态决策问题上的安全性和高置信度，本文提出了一种方法，该方法通过模型自由强化学习与时间序列分析的综合，将一种称为 Seldonian algorithm 的安全算法扩展。

Oct, 2020

参数可重定向决策者倾向于追求权力

AI 代理程序的获取权力以及其学习策略有助于在实际环境中寻求权力，这可能会带来一些安全风险。

Jun, 2022

训练有素的机器代理人的寻求权力行为可以被预测

研究表明，高级人工智能中的权力寻求行为是一种重要的风险来源，但目前对于这种现象的理论理解还相对有限。本文构建在现有的理论基础之上，研究了训练过程如何影响权力寻求激励，并证明了在一些简化的假设下，这种激励仍然可能存在于受过训练的智能体中，同时也能够预测新情况下的不良行为。

Apr, 2023

关机问题：三个定理

当按下关闭按钮时，设计能够关闭而不试图阻止或引发关闭按钮按下的人工智能代理，并以有效方式追求目标的问题。这篇论文通过证明三个定理，明确了这个问题的困难之处，并指出耐心和关闭能力之间的权衡关系，最后提出这些定理能够指导寻找解决方案。

Mar, 2024

最优政策往往追求权力

在强化学习中，我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力，以达到最大化平均奖励的目的。

Dec, 2019

通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划

本文介绍了一种用于安全 MDP 规划的方法，它基于对状态 - 动作轨迹的安全度量，用监督学习模型学习非马尔可夫安全模式，并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明，该方法可以满足非马尔可夫的安全约束条件，比马尔可夫 NCE 的先前最佳方法更好。

Apr, 2023

通过迭代改进效用函数实现 AGI 智能体安全

通过数学模型，我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层，该层可以在多种情况下部分或完全压制代理人的潜在危险，包括操纵其改进流程，并通过数学证明展示了本系统的工作原理。

Jul, 2020

强化学习的安全裕度

任何自主控制器在某些情况下都可能不安全，定量识别这些不安全情况的能力对于及时引起人类监督至关重要。本研究展示了真正危急情况的临界性可以被鲁棒地定义为随机行动导致的奖励减少的平均值。可以将实时计算的代理临界性度量与真正的临界性进行比较，并展示如何利用这些代理度量生成安全裕度，直接将潜在错误行动的后果与整体性能损失联系起来。我们在 Atari 环境中评估了来自 APE-X 和 A3C 的学习策略，并展示了安全裕度随着代理逼近失败状态而减少。将安全裕度整合到监测已部署代理的程序中，可以实时识别潜在的灾难性情况。

Jul, 2023

安全探索的 Atari 代理人的近似屏蔽

研究探讨如何在强化学习中实现安全探索，提出了一种基于 latent shielding 的算法，能有效减少安全违规率并提高最终代理的收敛速度和质量。

Apr, 2023