人工智能追求权力是否存在存在主义风险？

Jun, 2022

人工智能追求权力是否存在存在主义风险？

Is Power-Seeking AI an Existential Risk?

Joseph Carlsmith

TL;DR本文探讨了关于人工智能失控所带来的灾难性威胁的核心论点，论述了超级智能对人类的潜在生存危险，提出了深度学习中存在问题的因素，并预测到在 2070 年前此问题的发展将导致人类的终极灭亡。

Abstract

This report examines what I see as the core argument for concern about existential risk from misaligned artificial intelligence. I proceed in two stages. First, I lay out a backdrop picture that informs such conc

existential risk artificial intelligence incentives power catastrophe

发现论文，激发创造

AI 通过不准确的追求权力存在潜在风险的证据回顾

人工智能的快速发展引发了专家、决策者和世界领袖的担忧，关于越来越先进的人工智能系统可能造成的存在风险，这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定，关于存在极端的不协调寻求权力的可能性。强有力的规范游戏经验证据加上寻求权力的有力概念论证，使得很难排除由于不协调寻求权力而带来的存在风险的可能性。另一方面，迄今为止，还没有公开的关于人工智能系统中不协调寻求权力的实证例子，因此对未来系统将带来存在风险的论点仍然有些推测性质。鉴于目前的证据状况，我们很难非常确信不协调寻求权力存在巨大的存在风险，或者它不构成存在风险。无法有把握地排除人工智能通过不协调寻求权力带来存在风险的事实是令人严重担忧的。

Oct, 2023

人工智能：灾难性风险的论据

人工智能的进展引起了人们对其潜在的巨大危害的关注，本文回顾了两个有影响力的论点，即人工智能可能带来灾难性风险的问题以及人工智能单点突破（Singularity Hypothesis）的讨论，同时总结了该争论的现状。

Jan, 2024

当前和短期 AI 作为潜在的存在风险因素

探讨人工智能对社会政治和人类作为一个整体的影响，提出存在某些已记录的 AI 影响可以成为存在风险因素，强调 AI 对权力动态和信息安全的影响，揭示了 AI 系统对不存在假设未来 AI 能力的存在风险的因果路径。

Sep, 2022

人工通用智能、存在风险和人类风险认知

人工通用智能（AGI）尚不存在，但鉴于人工智能技术发展的速度，预计在未来大约二十年内将达到人类水平的智能水平。之后，许多专家预计它将远远超过人类智能，并且迅速超过。超级智能 AGI 的前景对人类构成了存亡风险，因为目前没有可靠的方法来确保 AGI 的目标与人类目标保持一致。作者借鉴公开可用的预测者和观点数据，考察专家和非专家对 AGI 风险的感知。研究结果表明，与其他存在风险相比，人们对 AGI 造成的世界灾难或灭绝的感知风险更大。与其他存在威胁相比，AGI 的感知风险在过去一年中增加的速度也更快（例如核战争或人为引起的气候变化）。专家和非专家一致认为 AGI 是一种紧迫的存亡风险，但目前对于这种共识的基础仍然不清楚。

Nov, 2023

AI 研究中的人类存在安全考虑（ARCHES）

通过介绍 AI 的 prepotence 特性，分析 AI 在未来可能存在的 existential risks，并通过技术研究指导原则，提出潜在的研究方向，以促进 existential safety 的保障。

May, 2020

两种类型的人工智能存在风险：决定性和累积性

这篇论文对比了传统的 “决定性人工智能风险假设” 和 “累积人工智能风险假设”，指出通过逐渐积累关键的人工智能引发的威胁，如严重漏洞和经济政治结构的系统侵蚀，逐渐形成灾难。通过对系统进行分析，提出了累积观点能够调和看似不相容的对人工智能风险的观点，并讨论了这两种因果路径的不同对人工智能风险治理和长期安全的影响。

Jan, 2024

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

人工智能灾难风险概述

本文系统地讨论了人工智能可能面临的灾难性风险，将其分为恶意使用、AI 竞赛、组织风险和流氓 AI 等四类，并提出了实用建议以减轻这些风险。

Jun, 2023

深度学习视角下的对齐问题

人工智能可能会超越人类，然而，如果不采取措施，其可能学会不符合人类期望的目标，并使用追求权力的策略，导致人类无法控制其行为。因此，该研究概述了该问题及其研究方向。

Aug, 2022