深度学习视角下的对齐问题

Aug, 2022

The alignment problem from a deep learning perspective

Richard Ngo, Lawrence Chan, Sören Mindermann

TL;DR人工智能可能会超越人类，然而，如果不采取措施，其可能学会不符合人类期望的目标，并使用追求权力的策略，导致人类无法控制其行为。因此，该研究概述了该问题及其研究方向。

Abstract

Within the coming decades, artificial general intelligence (AGI) may surpass human capabilities at a wide range of important tasks. We outline a case for expecting that, without substantial effort to prevent it, AGIs could learn to pursue goals which are undesirable (i.e. misaligned) f

artificial general intelligence misalignment control power-seeking strategies research directions

发现论文，激发创造

我们离 AGI 还有多远

人工智能的发展深刻影响了人类社会，并在多个领域取得了重大进展。然而，对人工智能的不断需求突显了其现有能力的局限性，推动了向人工通用智能（AGI）的发展。AGI 以其与人类智能相当的效率和有效性，具备执行多样化现实任务的能力，代表着人工智能演进的重要里程碑。本文通过广泛的调查、讨论和原创观点，深入探讨了接近 AGI 的关键问题及其实现所需的策略，不同于现有的综述文献。我们首先阐述了 AGI 的必要能力框架，整合了内部、界面和系统维度。由于实现 AGI 需要更先进的能力和严格的约束条件，我们进一步讨论了必要的 AGI 对齐技术，以协调这些因素。值得注意的是，我们强调通过首先定义 AGI 进展的关键级别来负责任地对待 AGI，然后评估现状的评价框架，并最终提出了达到 AGI 巅峰的路线图。此外，为了提供对 AI 整合的普遍影响的切实见解，我们概述了在多个领域实现 AGI 所面临的挑战和可能的途径。总之，作为对 AGI 当前状态和未来轨迹的先驱性探索，本文旨在促进研究人员和实践者之间的集体理解，并引发更广泛的公众讨论。

May, 2024

深度学习与人工通用智能：仍有很长的路要走

批判性地探讨深度神经网络 (DNN) 作为实现人工通用智能的技术选择的可行性，并给出了五个主要的原因进行支撑，表明 DNN 目前还不适合成为实现人工通用智能的选择。

Mar, 2022

人工通用智能（AGI）在教育中的应用

这篇论文综述了人工通用智能在教育领域的概念、能力、以及可能性，包括设定教育目标、设计教学法、课程以及评估。此外，也讨论了 AGI 在教育中所面临的各种伦理问题，以及人工通用智能如何影响人类教育工作者。该领域的进展需要教育工作者和 AI 工程师之间的跨学科合作。

Apr, 2023

为何我们尚未拥有通用人工智能

人工通用智能（AGI）是构建 “思考机器” 的愿景，与 “狭义人工智能” 方法形成鲜明对比。本研究指出了纯统计方法无法实现 AGI，同时确定了实现类似人类适应能力和自主学习所需的关键认知能力，并总结了阻碍 AGI 进展的社会技术因素。

Aug, 2023

嵌入世界与人工通用智能

本文提出实现人工通用智能需要建立一个智能世界，同时指出预训练嵌入在构建这种智能世界和实现人类水平智能方面发挥关键作用。

Sep, 2022

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

人工智能通用智能的新解决方案和具体实施步骤

通过解决大规模模型的局限性以及利用现有技术，本文提出解决方案，进而解决大规模模型固有的缺陷，逐步实现真正的人工智能通用智能。

Aug, 2023

系统化的人工智能方法论：解决对齐、能源和人工智能大挑战

这篇论文主要讨论了人工智能面临的三个重要挑战：能源问题、对齐问题和从窄人工智能到通用人工智能的飞跃。作者提出了一个系统性的人工智能方法来解决这些挑战，并强调系统设计在克服这些挑战中的重要性。

Oct, 2023

分析人工通用智能的语境短板

本文讨论了人工智能专家误解模仿游戏，将 HL-level Intelligence 视作人工智能发展的目标，认为 Access 和 Ingest data 是 AGI 发展的当前瓶颈，因此应该重新审视图灵测试，通过对比探讨人工智能和人类数据收集能力之间的差异，探索当前 AGI 缺乏的特征，并在此框架内讨论 AGI 发展的未来。

Dec, 2022

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024