人类控制:定义与算法
本文研究强化学习中的安全中断问题,提出了针对分散学习问题的动态安全中断定义,并探讨了在联合行动学习者和独立学习者中的应用,提出了可行的必要条件,并指出在独立学习者中使用动态安全中断需要添加特定算法。
Apr, 2017
本文提出了一种更有效的解决AI安全中的价值同步问题的解决方案,其方法是利用关键指标来测量动作的重要性,只在关键动作时需要操作者进行干预,操作者在处理其他工作时也能保证安全。
Jan, 2022
本文通过对欧盟、美国和英国政策文件的调查,针对可解释性人工智能的技术和社会影响进行了主题和缺口分析。发现政策通常基于对解释的粗略观念和要求。最终提出了一组关于如何解释AI系统的建议,其中包括定义、可行性、可用性以及分配解释提供者的责任。
Apr, 2023
为了确保人工智能系统的安全性和长期代理的保留,应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性,并且应该在“代理基础”领域进行研究,以改进我们对人工智能与人类交互中代理的理解。
May, 2023
快速发展的人工智能以人工指导为基础的合作副驾驶模式,与仅仅是工具的角色相比,正在改变知识工作的各个方面,并将其影响扩展到日常生活和专业领域。本论文旨在从与人机交互和人因工程学等学科相关的研究和文献中强调在人工智能交互中保持人类监督的重要性,并呼吁通过强调积极的人类参与、控制和技能提升来设计人工智能合作伙伴关系,以促进和谐、有效和赋能的人工智能关系。
Nov, 2023
如果一个AI代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于追求权力,追求权力的代理是不安全的;我们以马尔科夫决策过程为模型,研究代理是否会抵抗关闭的关键类型的追求权力;我们还展示了在某些情况下安全是不稳定的,微小的扰动可能导致代理永远不关闭;我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况,证明微小的扰动不会导致代理关闭所需时间变长;我们还研究了满足特定约束的MDP的策略,该约束适用于各种模型,包括语言模型,在这里,我们量化了不关闭的概率增加速度的界限:通过在MDP上定义一个度量;证明不关闭的概率作为MDP上的函数是下半连续的;并且给出了这个函数减小的速度上界。
Jan, 2024
当按下关闭按钮时,设计能够关闭而不试图阻止或引发关闭按钮按下的人工智能代理,并以有效方式追求目标的问题。这篇论文通过证明三个定理,明确了这个问题的困难之处,并指出耐心和关闭能力之间的权衡关系,最后提出这些定理能够指导寻找解决方案。
Mar, 2024
泛人工智能与人类的互动达到了前所未有的规模,为巨大的积极影响提供了新途径,但也引发了广泛关注,担忧其对个体和社会可能造成的伤害。本文中,我们认为,对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此,我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机,为未来几十年的人类中心人工智能安全奠定了新基础。
May, 2024