人工智能灾难风险概述

Jun, 2023

An Overview of Catastrophic AI Risks

Dan Hendrycks, Mantas Mazeika, Thomas Woodside

TL;DR本文系统地讨论了人工智能可能面临的灾难性风险，将其分为恶意使用、AI 竞赛、组织风险和流氓 AI 等四类，并提出了实用建议以减轻这些风险。

Abstract

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks

artificial intelligence catastrophic risks malicious use ai race rogue ais

发现论文，激发创造

人工智能：灾难性风险的论据

人工智能的进展引起了人们对其潜在的巨大危害的关注，本文回顾了两个有影响力的论点，即人工智能可能带来灾难性风险的问题以及人工智能单点突破（Singularity Hypothesis）的讨论，同时总结了该争论的现状。

Jan, 2024

管理快速发展时代的 AI 风险

通过研究先进的人工智能系统，我们指出了即将到来的风险，包括大规模社会伤害和恶意使用，以及人类对自主人工智能系统失去控制的不可逆性。鉴于人工智能的迅速发展，我们提出了人工智能研发和治理的优先事项。

Oct, 2023

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

两种类型的人工智能存在风险：决定性和累积性

这篇论文对比了传统的 “决定性人工智能风险假设” 和 “累积人工智能风险假设”，指出通过逐渐积累关键的人工智能引发的威胁，如严重漏洞和经济政治结构的系统侵蚀，逐渐形成灾难。通过对系统进行分析，提出了累积观点能够调和看似不相容的对人工智能风险的观点，并讨论了这两种因果路径的不同对人工智能风险治理和长期安全的影响。

Jan, 2024

面向高风险 AI 风险管理的可执行指南：朝着应对人工智能灾难性风险的标准迈进

本文介绍了美国国家标准与技术研究所（NIST）人工智能风险管理框架，提出了针对潜在误用和滥用、人权损害、灾难性风险等方面的风险识别和管理建议，并给出了对于更为多样化、通用化的人工智能的监管方案。

Jun, 2022

AI 研究的 X 风险分析

当前人工智能技术缺乏管理长尾风险的系统性讨论，而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁；本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。

Jun, 2022

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

人工智能风险怀疑论：一项综合调查

本研究调查了与人工智能相关的潜在危险引起怀疑的问题，并将它与其他科学领域中出现的怀疑形式进行比较，通过针对其中蕴含的错误思考类型进行分类，旨在更好地理解我们现有的异议并寻找令人满意的解决方式。

Feb, 2023

系统安全和人工智能

本章提出了七个防止人工智能系统造成伤害的课程，探讨了系统安全领域的见解，针对公共机构及基础设施中的新应用程序引发的新危害，阐述了诊断和消除新人工智能系统危害的共识缺失，并探讨了有效人工智能管理所需的跨学科方法和共享语言。

Feb, 2022

当前和短期 AI 作为潜在的存在风险因素

探讨人工智能对社会政治和人类作为一个整体的影响，提出存在某些已记录的 AI 影响可以成为存在风险因素，强调 AI 对权力动态和信息安全的影响，揭示了 AI 系统对不存在假设未来 AI 能力的存在风险的因果路径。

Sep, 2022