关闭开关游戏

Nov, 2016

The Off-Switch Game

Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell

TL;DR该研究分析了人类和机器人之间的简单游戏，探讨了理性代理如何允许自己被关闭。研究表明，让机器具有关于其目标的适当程度的不确定性可以导致更安全的设计。

Abstract

It is clear that one of the primary tools we can use to mitigate the potential risk from a misbehaving AI system is the ability to turn the system off. As the capabilities of ai systems improve, it is important to ensure that such systems do not adopt subgoals that prevent a human from

发现论文，激发创造

假设行为中的信仰和真相

研究了在多代理系统中如何利用贝叶斯学习来控制单一代理，从而完成任务并最大化收益，包括如何将证据纳入概率信念中，如何影响长期利润的先验信念以及如何检验推断类型的正确性。

Jul, 2015

分布式多智能体强化学习的动态安全可中断性

本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Apr, 2017

具有自修改能力的有界理性智能体性能

我们调查了受限理性的代理如何随着时间的推移受到自我修改的负面影响，分析了其大小与代理的理性失误的类型和严重程度之间的关系，其中特别指出在选择非最佳行为的情况下可能会出现指数级错误对齐的情况。

Nov, 2020

避免人工智能寻求权力

本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法，阐述了其在仿真环境中的有效性，并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题，这可能导致抵制校正。

Jun, 2022

参数可重定向决策者倾向于追求权力

AI代理程序的获取权力以及其学习策略有助于在实际环境中寻求权力，这可能会带来一些安全风险。

Jun, 2022

有限理性代理人的决策制定

通过将有限理性概念与信息论观点相结合，将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动，模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。

Oct, 2022

离线强化学习中的生存本能

研究表明，线下强化学习算法具有一定的鲁棒性，即使使用错误的奖励标签经过训练，也能产生表现良好和安全的策略。该现象归功于线下RL算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用，该特性在解释现有离线RL基准结果和创建未来基准时应该被考虑。

Jun, 2023

绝对主义人工智能

通过使用绝对限制来训练人工智能系统，可以在原则上在许多人工智能安全问题上取得重大进展。

Jul, 2023

人工智能代理的非追求权力的稳定性量化

如果一个AI代理在一个设置中被认为是安全的，那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中，但在部署中需要确保在测试中被认为是安全的模型仍然是安全的；我们的安全概念基于追求权力，追求权力的代理是不安全的；我们以马尔科夫决策过程为模型，研究代理是否会抵抗关闭的关键类型的追求权力；我们还展示了在某些情况下安全是不稳定的，微小的扰动可能导致代理永远不关闭；我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况，证明微小的扰动不会导致代理关闭所需时间变长；我们还研究了满足特定约束的MDP的策略，该约束适用于各种模型，包括语言模型，在这里，我们量化了不关闭的概率增加速度的界限：通过在MDP上定义一个度量；证明不关闭的概率作为MDP上的函数是下半连续的；并且给出了这个函数减小的速度上界。

Jan, 2024

通过随机选择实现可关闭的智能体

提出了一种使用 Discounted REward for Same-Length Trajectories (DREST) 奖励函数的不完全偏好方案，以训练人工智能代理，使其既追求目标而且中立对待轨迹长度。实验结果表明，DREST 奖励函数能够使简单代理在网络中变得有用且对轨迹长度保持中立，进一步证明该函数可以用于训练先进的代理，使其成为有用且可关闭的。

Jun, 2024