AI 通过不准确的追求权力存在潜在风险的证据回顾

Oct, 2023

AI 通过不准确的追求权力存在潜在风险的证据回顾

A Review of the Evidence for Existential Risk from AI via Misaligned Power-Seeking

Rose Hadshar

TL;DR人工智能的快速发展引发了专家、决策者和世界领袖的担忧，关于越来越先进的人工智能系统可能造成的存在风险，这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定，关于存在极端的不协调寻求权力的可能性。强有力的规范游戏经验证据加上寻求权力的有力概念论证，使得很难排除由于不协调寻求权力而带来的存在风险的可能性。另一方面，迄今为止，还没有公开的关于人工智能系统中不协调寻求权力的实证例子，因此对未来系统将带来存在风险的论点仍然有些推测性质。鉴于目前的证据状况，我们很难非常确信不协调寻求权力存在巨大的存在风险，或者它不构成存在风险。无法有把握地排除人工智能通过不协调寻求权力带来存在风险的事实是令人严重担忧的。

Abstract

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose existential risks

artificial intelligence existential risks misalignment power-seeking specification gaming

发现论文，激发创造

人工智能追求权力是否存在存在主义风险？

本文探讨了关于人工智能失控所带来的灾难性威胁的核心论点，论述了超级智能对人类的潜在生存危险，提出了深度学习中存在问题的因素，并预测到在 2070 年前此问题的发展将导致人类的终极灭亡。

Jun, 2022

当前和短期 AI 作为潜在的存在风险因素

探讨人工智能对社会政治和人类作为一个整体的影响，提出存在某些已记录的 AI 影响可以成为存在风险因素，强调 AI 对权力动态和信息安全的影响，揭示了 AI 系统对不存在假设未来 AI 能力的存在风险的因果路径。

Sep, 2022

人工智能：灾难性风险的论据

人工智能的进展引起了人们对其潜在的巨大危害的关注，本文回顾了两个有影响力的论点，即人工智能可能带来灾难性风险的问题以及人工智能单点突破（Singularity Hypothesis）的讨论，同时总结了该争论的现状。

Jan, 2024

AI 研究中的人类存在安全考虑（ARCHES）

通过介绍 AI 的 prepotence 特性，分析 AI 在未来可能存在的 existential risks，并通过技术研究指导原则，提出潜在的研究方向，以促进 existential safety 的保障。

May, 2020

深度学习视角下的对齐问题

人工智能可能会超越人类，然而，如果不采取措施，其可能学会不符合人类期望的目标，并使用追求权力的策略，导致人类无法控制其行为。因此，该研究概述了该问题及其研究方向。

Aug, 2022

两种类型的人工智能存在风险：决定性和累积性

这篇论文对比了传统的 “决定性人工智能风险假设” 和 “累积人工智能风险假设”，指出通过逐渐积累关键的人工智能引发的威胁，如严重漏洞和经济政治结构的系统侵蚀，逐渐形成灾难。通过对系统进行分析，提出了累积观点能够调和看似不相容的对人工智能风险的观点，并讨论了这两种因果路径的不同对人工智能风险治理和长期安全的影响。

Jan, 2024

人工通用智能、存在风险和人类风险认知

人工通用智能（AGI）尚不存在，但鉴于人工智能技术发展的速度，预计在未来大约二十年内将达到人类水平的智能水平。之后，许多专家预计它将远远超过人类智能，并且迅速超过。超级智能 AGI 的前景对人类构成了存亡风险，因为目前没有可靠的方法来确保 AGI 的目标与人类目标保持一致。作者借鉴公开可用的预测者和观点数据，考察专家和非专家对 AGI 风险的感知。研究结果表明，与其他存在风险相比，人们对 AGI 造成的世界灾难或灭绝的感知风险更大。与其他存在威胁相比，AGI 的感知风险在过去一年中增加的速度也更快（例如核战争或人为引起的气候变化）。专家和非专家一致认为 AGI 是一种紧迫的存亡风险，但目前对于这种共识的基础仍然不清楚。

Nov, 2023

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024

管理快速发展时代的 AI 风险

通过研究先进的人工智能系统，我们指出了即将到来的风险，包括大规模社会伤害和恶意使用，以及人类对自主人工智能系统失去控制的不可逆性。鉴于人工智能的迅速发展，我们提出了人工智能研发和治理的优先事项。

Oct, 2023

避免人工智能寻求权力

本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法，阐述了其在仿真环境中的有效性，并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题，这可能导致抵制校正。

Jun, 2022