人类控制：定义与算法

May, 2023

Human Control: Definitions and Algorithms

Ryan Carey, Tom Everitt

TL;DR该论文提出了一种人类如何控制人工智能系统的方法——可纠正性，即要求智能体遵循人类监督者的指示，而不会对其进行不适当的影响。它还定义了一种可纠正行为的变体称为关机教示性，并表明它意味着适当的关机行为，保留人类自主权和避免用户危害。研究了三个先前提出的人类控制算法和一个新算法的相关概念。

Abstract

How can humans stay in control of advanced artificial intelligence systems? One proposal is corrigibility, which requires the agent to follow the instructions of a human overseer, without inappropriately influenc

发现论文，激发创造

分布式多智能体强化学习的动态安全可中断性

本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Apr, 2017

AI 安全中的临界性概念

本文提出了一种更有效的解决AI安全中的价值同步问题的解决方案，其方法是利用关键指标来测量动作的重要性，只在关键动作时需要操作者进行干预，操作者在处理其他工作时也能保证安全。

Jan, 2022

一种错误易发人工智能和人类代理之间的委派认知框架

研究人工智能系统和人类在同一环境下应怎样理解和相应对方行为，通过认知模型预测双方行为并通过中介控制实现目标的达成。

Apr, 2022

通用智能约束遵从性的计算层面分析

本文探讨了人类行为的约束条件、现实情境中这些限制的复杂性和智能代理如何适应这些约束条件，旨在给出一种通用的约束条件处理方法。

Mar, 2023

AI政策中的可解释性：欧盟、美国和英国的沟通、报告、法规和标准的关键回顾

本文通过对欧盟、美国和英国政策文件的调查，针对可解释性人工智能的技术和社会影响进行了主题和缺口分析。发现政策通常基于对解释的粗略观念和要求。最终提出了一组关于如何解释AI系统的建议，其中包括定义、可行性、可用性以及分配解释提供者的责任。

Apr, 2023

意图一致的AI系统削弱人类代理能力：AI安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在“代理基础”领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

AI副驾驶崛起: 来自航空领域及其他领域的设计经验教训

快速发展的人工智能以人工指导为基础的合作副驾驶模式，与仅仅是工具的角色相比，正在改变知识工作的各个方面，并将其影响扩展到日常生活和专业领域。本论文旨在从与人机交互和人因工程学等学科相关的研究和文献中强调在人工智能交互中保持人类监督的重要性，并呼吁通过强调积极的人类参与、控制和技能提升来设计人工智能合作伙伴关系，以促进和谐、有效和赋能的人工智能关系。

Nov, 2023

人工智能代理的非追求权力的稳定性量化

如果一个AI代理在一个设置中被认为是安全的，那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中，但在部署中需要确保在测试中被认为是安全的模型仍然是安全的；我们的安全概念基于追求权力，追求权力的代理是不安全的；我们以马尔科夫决策过程为模型，研究代理是否会抵抗关闭的关键类型的追求权力；我们还展示了在某些情况下安全是不稳定的，微小的扰动可能导致代理永远不关闭；我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况，证明微小的扰动不会导致代理关闭所需时间变长；我们还研究了满足特定约束的MDP的策略，该约束适用于各种模型，包括语言模型，在这里，我们量化了不关闭的概率增加速度的界限：通过在MDP上定义一个度量；证明不关闭的概率作为MDP上的函数是下半连续的；并且给出了这个函数减小的速度上界。

Jan, 2024

关机问题：三个定理

当按下关闭按钮时，设计能够关闭而不试图阻止或引发关闭按钮按下的人工智能代理，并以有效方式追求目标的问题。这篇论文通过证明三个定理，明确了这个问题的困难之处，并指出耐心和关闭能力之间的权衡关系，最后提出这些定理能够指导寻找解决方案。

Mar, 2024

人工智能安全: 一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024