通过迭代改进效用函数实现 AGI 智能体安全

Jul, 2020

通过迭代改进效用函数实现 AGI 智能体安全

AGI Agent Safety by Iteratively Improving the Utility Function

Koen Holtman

TL;DR通过数学模型，我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层，该层可以在多种情况下部分或完全压制代理人的潜在危险，包括操纵其改进流程，并通过数学证明展示了本系统的工作原理。

Abstract

While it is still unclear if agents with artificial general intelligence (AGI) could ever be built, we can already use mathematical models to investigate potential safety systems for these agents. We present an AGI safety layer that creates a special dedicated input terminal to support

artificial general intelligence agi safety layer utility function incentive manipulation mathematical proofs

发现论文，激发创造

AGI 安全文献综述

本文提供一份简明易懂的参考文献清单，涵盖人工通用智能领域的安全问题、最新研究成果、相关公共政策，以及人们如何思考人工通用智能 .

May, 2018

可证明安全系统：控制可达人工通用智能的唯一路径

通过利用先进的人工智能进行形式验证和机械解释，我们描述了人类安全繁荣与强大人工通用智能（AGIs）共存的路径，并主张这是唯一能确保安全可控 AGI 的途径，提出了一系列能推动这个积极结果的挑战问题，并邀请读者一同参与这项工作。

Sep, 2023

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

可计算人工通用智能

提出一种基于经验的理论框架，称为 “实用弱点原则”，用于处理认知科学和人工智能中的主观性问题，并将其与 AIXI 进行比较，显示出在弱点最大化的情况下会取得最优的行为结果。

May, 2022

使用机器学习和专家系统技术构建的自适应多领域人工智能系统的开发

通过结合经典人工智能技术 —— 专家系统与现代适应性梯度下降训练的专家系统（GDTES），利用生成式人工智能（GAI）创建网络和训练数据集的机制，本研究提出了一种人工智能的学习和发展推理路径以在先验未知领域做决策的方法，并展示了朝着产生人工通用智能（AGI）的目标迈出的小步骤。

Jun, 2024

我们离 AGI 还有多远

人工智能的发展深刻影响了人类社会，并在多个领域取得了重大进展。然而，对人工智能的不断需求突显了其现有能力的局限性，推动了向人工通用智能（AGI）的发展。AGI 以其与人类智能相当的效率和有效性，具备执行多样化现实任务的能力，代表着人工智能演进的重要里程碑。本文通过广泛的调查、讨论和原创观点，深入探讨了接近 AGI 的关键问题及其实现所需的策略，不同于现有的综述文献。我们首先阐述了 AGI 的必要能力框架，整合了内部、界面和系统维度。由于实现 AGI 需要更先进的能力和严格的约束条件，我们进一步讨论了必要的 AGI 对齐技术，以协调这些因素。值得注意的是，我们强调通过首先定义 AGI 进展的关键级别来负责任地对待 AGI，然后评估现状的评价框架，并最终提出了达到 AGI 巅峰的路线图。此外，为了提供对 AI 整合的普遍影响的切实见解，我们概述了在多个领域实现 AGI 所面临的挑战和可能的途径。总之，作为对 AGI 当前状态和未来轨迹的先驱性探索，本文旨在促进研究人员和实践者之间的集体理解，并引发更广泛的公众讨论。

May, 2024

跨模态安全对齐

人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型安全对齐挑战，以评估交叉模态的安全对齐性。具体而言，它考虑了单一模态在独立情况下安全，但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查，我们开发了 SIUO，一个涵盖了 9 个关键安全领域（如自残、非法活动和隐私侵犯）的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM（如 GPT-4V 和 LLaVA）在安全性上存在重大漏洞，凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。

Jun, 2024

用因果影响图建模 AGI 安全框架

本文使用因果影响图模拟和比较了最有前途的 AGI 安全框架，其统一的表示法允许易于比较各种框架和它们的假设。

Jun, 2019

人工智能通用智能的新解决方案和具体实施步骤

通过解决大规模模型的局限性以及利用现有技术，本文提出解决方案，进而解决大规模模型固有的缺陷，逐步实现真正的人工智能通用智能。

Aug, 2023

CERN 用于 AGI：自主模拟为基础的人工智能测试和对齐的理论框架

本研究探讨了多学科方法在测试和调整人工通用智能（AGI）和 LLMs 方面的潜力。通过在虚拟现实框架中采用基于模拟的多智能体系统，模拟真实世界环境中的复杂社会结构和相互作用，通过应用社会学、社会心理学、计算机科学、物理学、生物学和经济学等领域的各种理论，展示了实现更具人类对齐和社会责任的 AGI 的可能性。该研究旨在为 AGI 的开发和改进做出贡献，强调社会、伦理和理论维度的整合以供未来研究参考。

Dec, 2023