AI 研究中的人类存在安全考虑(ARCHES)
探讨人工智能对社会政治和人类作为一个整体的影响,提出存在某些已记录的 AI 影响可以成为存在风险因素,强调 AI 对权力动态和信息安全的影响,揭示了 AI 系统对不存在假设未来 AI 能力的存在风险的因果路径。
Sep, 2022
人工智能的快速发展引发了专家、决策者和世界领袖的担忧,关于越来越先进的人工智能系统可能造成的存在风险,这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定,关于存在极端的不协调寻求权力的可能性。强有力的规范游戏经验证据加上寻求权力的有力概念论证,使得很难排除由于不协调寻求权力而带来的存在风险的可能性。另一方面,迄今为止,还没有公开的关于人工智能系统中不协调寻求权力的实证例子,因此对未来系统将带来存在风险的论点仍然有些推测性质。鉴于目前的证据状况,我们很难非常确信不协调寻求权力存在巨大的存在风险,或者它不构成存在风险。无法有把握地排除人工智能通过不协调寻求权力带来存在风险的事实是令人严重担忧的。
Oct, 2023
本文探讨了关于人工智能失控所带来的灾难性威胁的核心论点,论述了超级智能对人类的潜在生存危险,提出了深度学习中存在问题的因素,并预测到在 2070 年前此问题的发展将导致人类的终极灭亡。
Jun, 2022
这篇论文对比了传统的 “决定性人工智能风险假设” 和 “累积人工智能风险假设”,指出通过逐渐积累关键的人工智能引发的威胁,如严重漏洞和经济政治结构的系统侵蚀,逐渐形成灾难。通过对系统进行分析,提出了累积观点能够调和看似不相容的对人工智能风险的观点,并讨论了这两种因果路径的不同对人工智能风险治理和长期安全的影响。
Jan, 2024
当前人工智能技术缺乏管理长尾风险的系统性讨论,而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁;本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。
Jun, 2022
AI 安全措施可能加剧而非减轻存在风险,对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略,每种策略面临 AI 安全景观内固有特征所带来的挑战,例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设,并指出了一些值得进一步研究的方向。
May, 2024
该研究提供了一个基于文献计量学的量化研究方法,发现自 2015 年以来,AI 安全领域的研究活动显著增加。然而,在技术问题、长期效用、价值联结以及政策方面仍存在一些研究知识空白需要进一步研究和探索。
Feb, 2020
这项研究综合了当前和未来的人工智能应用所面临的伦理问题,从技术和社会角度对 AI 部署中的公平性、隐私和数据保护、透明度与可解释性等伦理原则进行了综述。
Nov, 2023
AI 安全的概念在社会中日益普及,AI 社区越来越关注 AI Safety 的概念,即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例,我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题,但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。
Dec, 2023
人工智能的进展引起了人们对其潜在的巨大危害的关注,本文回顾了两个有影响力的论点,即人工智能可能带来灾难性风险的问题以及人工智能单点突破(Singularity Hypothesis)的讨论,同时总结了该争论的现状。
Jan, 2024