人工智能：灾难性风险的论据

Jan, 2024

Artificial Intelligence: Arguments for Catastrophic Risk

Adam Bales, William D'Alessandro, Cameron Domenico Kirk-Giannini

TL;DR人工智能的进展引起了人们对其潜在的巨大危害的关注，本文回顾了两个有影响力的论点，即人工智能可能带来灾难性风险的问题以及人工智能单点突破（Singularity Hypothesis）的讨论，同时总结了该争论的现状。

Abstract

Recent progress in artificial intelligence (AI) has drawn attention to the technology's transformative potential, including what some see as its prospects for causing large-scale harm. We review two influential arguments purporting to show how AI could pose →

artificial intelligence catastrophic risks power-seeking behavior singularity hypothesis debate state

发现论文，激发创造

人工智能灾难风险概述

本文系统地讨论了人工智能可能面临的灾难性风险，将其分为恶意使用、AI 竞赛、组织风险和流氓 AI 等四类，并提出了实用建议以减轻这些风险。

Jun, 2023

人工智能追求权力是否存在存在主义风险？

本文探讨了关于人工智能失控所带来的灾难性威胁的核心论点，论述了超级智能对人类的潜在生存危险，提出了深度学习中存在问题的因素，并预测到在 2070 年前此问题的发展将导致人类的终极灭亡。

Jun, 2022

AI 通过不准确的追求权力存在潜在风险的证据回顾

人工智能的快速发展引发了专家、决策者和世界领袖的担忧，关于越来越先进的人工智能系统可能造成的存在风险，这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定，关于存在极端的不协调寻求权力的可能性。强有力的规范游戏经验证据加上寻求权力的有力概念论证，使得很难排除由于不协调寻求权力而带来的存在风险的可能性。另一方面，迄今为止，还没有公开的关于人工智能系统中不协调寻求权力的实证例子，因此对未来系统将带来存在风险的论点仍然有些推测性质。鉴于目前的证据状况，我们很难非常确信不协调寻求权力存在巨大的存在风险，或者它不构成存在风险。无法有把握地排除人工智能通过不协调寻求权力带来存在风险的事实是令人严重担忧的。

Oct, 2023

两种类型的人工智能存在风险：决定性和累积性

这篇论文对比了传统的 “决定性人工智能风险假设” 和 “累积人工智能风险假设”，指出通过逐渐积累关键的人工智能引发的威胁，如严重漏洞和经济政治结构的系统侵蚀，逐渐形成灾难。通过对系统进行分析，提出了累积观点能够调和看似不相容的对人工智能风险的观点，并讨论了这两种因果路径的不同对人工智能风险治理和长期安全的影响。

Jan, 2024

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

当前和短期 AI 作为潜在的存在风险因素

探讨人工智能对社会政治和人类作为一个整体的影响，提出存在某些已记录的 AI 影响可以成为存在风险因素，强调 AI 对权力动态和信息安全的影响，揭示了 AI 系统对不存在假设未来 AI 能力的存在风险的因果路径。

Sep, 2022

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

人工智能安全：通往末日的攀登？

AI 安全措施可能加剧而非减轻存在风险，对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略，每种策略面临 AI 安全景观内固有特征所带来的挑战，例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设，并指出了一些值得进一步研究的方向。

May, 2024

管理快速发展时代的 AI 风险

通过研究先进的人工智能系统，我们指出了即将到来的风险，包括大规模社会伤害和恶意使用，以及人类对自主人工智能系统失去控制的不可逆性。鉴于人工智能的迅速发展，我们提出了人工智能研发和治理的优先事项。

Oct, 2023

人工智能风险怀疑论：一项综合调查

本研究调查了与人工智能相关的潜在危险引起怀疑的问题，并将它与其他科学领域中出现的怀疑形式进行比较，通过针对其中蕴含的错误思考类型进行分类，旨在更好地理解我们现有的异议并寻找令人满意的解决方式。

Feb, 2023