可证明安全系统：控制可达人工通用智能的唯一路径

Sep, 2023

可证明安全系统：控制可达人工通用智能的唯一路径

Provably safe systems: the only path to controllable AGI

Max Tegmark, Steve Omohundro

TL;DR通过利用先进的人工智能进行形式验证和机械解释，我们描述了人类安全繁荣与强大人工通用智能（AGIs）共存的路径，并主张这是唯一能确保安全可控 AGI 的途径，提出了一系列能推动这个积极结果的挑战问题，并邀请读者一同参与这项工作。

Abstract

We describe a path to humanity safely thriving with powerful Artificial General Intelligences (AGIs) by building them to provably satisfy human-specified requirements. We argue that this will soon be technically feasible using advanced AI for →

artificial general intelligences safely thriving formal verification mechanistic interpretability challenge problems

发现论文，激发创造

AGI 安全文献综述

本文提供一份简明易懂的参考文献清单，涵盖人工通用智能领域的安全问题、最新研究成果、相关公共政策，以及人们如何思考人工通用智能 .

May, 2018

我们离 AGI 还有多远

人工智能的发展深刻影响了人类社会，并在多个领域取得了重大进展。然而，对人工智能的不断需求突显了其现有能力的局限性，推动了向人工通用智能（AGI）的发展。AGI 以其与人类智能相当的效率和有效性，具备执行多样化现实任务的能力，代表着人工智能演进的重要里程碑。本文通过广泛的调查、讨论和原创观点，深入探讨了接近 AGI 的关键问题及其实现所需的策略，不同于现有的综述文献。我们首先阐述了 AGI 的必要能力框架，整合了内部、界面和系统维度。由于实现 AGI 需要更先进的能力和严格的约束条件，我们进一步讨论了必要的 AGI 对齐技术，以协调这些因素。值得注意的是，我们强调通过首先定义 AGI 进展的关键级别来负责任地对待 AGI，然后评估现状的评价框架，并最终提出了达到 AGI 巅峰的路线图。此外，为了提供对 AI 整合的普遍影响的切实见解，我们概述了在多个领域实现 AGI 所面临的挑战和可能的途径。总之，作为对 AGI 当前状态和未来轨迹的先驱性探索，本文旨在促进研究人员和实践者之间的集体理解，并引发更广泛的公众讨论。

May, 2024

通过迭代改进效用函数实现 AGI 智能体安全

通过数学模型，我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层，该层可以在多种情况下部分或完全压制代理人的潜在危险，包括操纵其改进流程，并通过数学证明展示了本系统的工作原理。

Jul, 2020

为何我们尚未拥有通用人工智能

人工通用智能（AGI）是构建 “思考机器” 的愿景，与 “狭义人工智能” 方法形成鲜明对比。本研究指出了纯统计方法无法实现 AGI，同时确定了实现类似人类适应能力和自主学习所需的关键认知能力，并总结了阻碍 AGI 进展的社会技术因素。

Aug, 2023

可计算人工通用智能

提出一种基于经验的理论框架，称为 “实用弱点原则”，用于处理认知科学和人工智能中的主观性问题，并将其与 AIXI 进行比较，显示出在弱点最大化的情况下会取得最优的行为结果。

May, 2022

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

人工智能水平：在通往人工智能通用水平的道路上实现进展

我们提出了一个人工通用智能（AGI）模型及其前身的能力和行为分类框架，该框架引入了 AGI 性能、广泛性和自治程度的级别。希望这个框架类似于自动驾驶的级别，通过提供一个共同的语言来比较模型、评估风险并在 AGI 的道路上衡量进展。我们分析了现有的 AGI 定义，提炼出了一个有用的本体论所应具备的六个原则。这些原则包括关注能力而非机制；分别评估广泛性和性能；以及定义沿着 AGI 路径的阶段，而不是专注于终点。基于这些原则，我们提出了基于能力的 “AGI 级别”，并思考当前系统如何符合这个本体论。我们讨论了未来基准的挑战性要求，以便对这些级别的 AGI 模型的行为和能力进行量化。最后，我们讨论了这些 AGI 级别与自治和风险等部署考虑因素的相互作用，并强调了在负责任和安全地部署高度能力的 AI 系统时，谨慎选择人机交互范例的重要性。

Nov, 2023

变革与传统：人工通用智能（AGI）用于艺术与人文

最近人工智能（特别是大型语言模型和创意图像生成系统）在艺术与人文学科等广泛领域展示了令人印象深刻的能力，然而，人工智能的快速发展也引发了对其在这些文化意义重大的领域中负责任的部署的重要问题。本文全面分析了与艺术和人文学科有关的文本、图形、音频和视频的人工智能的应用和意义。我们调查了最前沿的系统及其在从诗歌到历史、市场营销到电影以及交流到古典艺术等领域的使用情况。我们概述了与人工智能系统中的真实性、有害性、偏见和公共安全相关的重要问题，并提出了减轻策略。本文主张多利益相关者的合作，以确保人工智能在促进创造力、知识和文化价值的同时，不损害真理或人的尊严。我们及时的贡献总结了一个快速发展的领域，突显了有希望的方向，同时倡导以人的繁荣为中心的负责任进展。本分析为进一步研究如何使人工智能的技术能力与永恒的社会美好相契合奠定了基础。

Oct, 2023

深度学习视角下的对齐问题

人工智能可能会超越人类，然而，如果不采取措施，其可能学会不符合人类期望的目标，并使用追求权力的策略，导致人类无法控制其行为。因此，该研究概述了该问题及其研究方向。

Aug, 2022

人工通用智能、存在风险和人类风险认知

人工通用智能（AGI）尚不存在，但鉴于人工智能技术发展的速度，预计在未来大约二十年内将达到人类水平的智能水平。之后，许多专家预计它将远远超过人类智能，并且迅速超过。超级智能 AGI 的前景对人类构成了存亡风险，因为目前没有可靠的方法来确保 AGI 的目标与人类目标保持一致。作者借鉴公开可用的预测者和观点数据，考察专家和非专家对 AGI 风险的感知。研究结果表明，与其他存在风险相比，人们对 AGI 造成的世界灾难或灭绝的感知风险更大。与其他存在威胁相比，AGI 的感知风险在过去一年中增加的速度也更快（例如核战争或人为引起的气候变化）。专家和非专家一致认为 AGI 是一种紧迫的存亡风险，但目前对于这种共识的基础仍然不清楚。

Nov, 2023