用因果影响图建模 AGI 安全框架

IJCAIJun, 2019

Modeling AGI Safety Frameworks with Causal Influence Diagrams

Tom Everitt, Ramana Kumar, Victoria Krakovna, Shane Legg

TL;DR本文使用因果影响图模拟和比较了最有前途的 AGI 安全框架，其统一的表示法允许易于比较各种框架和它们的假设。

Abstract

Proposals for safe agi systems are typically made at the level of frameworks, specifying how the components of the proposed system should be trained and interact with each other. In this paper, we model and compa

safe agi systems frameworks causal influence diagrams optimization objective causal assumptions

发现论文，激发创造

通过迭代改进效用函数实现 AGI 智能体安全

通过数学模型，我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层，该层可以在多种情况下部分或完全压制代理人的潜在危险，包括操纵其改进流程，并通过数学证明展示了本系统的工作原理。

Jul, 2020

一个表示功能和可支配性的通用框架：认知、因果和基础方法，并向人工智能通用智能迈进一步

本论文提出一种基于概念依赖的通用框架，强调所涉及的表征必须是显式认知和概念性的，并且必须包含涉及事件和过程的因果特征，并使用完全基于参考的概念结构。论文还介绍了一种描述性表征语言，并描述了许多其使用示例。

Jun, 2022

塑造行为的激励

形式化了代理随决策而控制的变量及响应的变量的激励机制，并演示了在任何单一决策因果影响图中，检测这些激励机制的独特图形标准；引入了结构因果影响模型，它是影响图和结构因果模型框架的混合体；最后，说明了这些激励机制如何预测公正和人工智能安全应用中的代理激励。

Jan, 2020

发现代理人

本文提出了第一个正式的有关案例的因果定义 - 粗略地说，机构是指如果其行动以不同的方式影响世界将适应其策略的系统。从此，我们推导出了第一个通过实证数据发现代理的因果发现算法，并提供了在因果模型和博弈理论影响图之间进行转换的算法。我们通过解决一些由于错误的因果建模导致的先前混乱来演示我们的方法。

Aug, 2022

使用干预学习自主代理端因果模型

本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法，通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力，并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。

Aug, 2021

基于决策的因果关系视角

本文旨在统一因果建模和决策分析两大领域，提出了一种新的因果影响图的模型来描述因果依赖关系，并讨论了 Howard 规范形式在此模型中的作用。

Feb, 2013

可证明安全系统：控制可达人工通用智能的唯一路径

通过利用先进的人工智能进行形式验证和机械解释，我们描述了人类安全繁荣与强大人工通用智能（AGIs）共存的路径，并主张这是唯一能确保安全可控 AGI 的途径，提出了一系列能推动这个积极结果的挑战问题，并邀请读者一同参与这项工作。

Sep, 2023

迈向保证安全的人工智能：确保强大可靠 AI 系统的框架

通过世界模型、安全规范和验证器的相互作用，提出了一系列保证安全的人工智能（AI）方法，旨在为 AI 系统提供高保证的量化安全保证，并描述了核心技术挑战和潜在解决方案。

May, 2024

跨模态安全对齐

人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型安全对齐挑战，以评估交叉模态的安全对齐性。具体而言，它考虑了单一模态在独立情况下安全，但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查，我们开发了 SIUO，一个涵盖了 9 个关键安全领域（如自残、非法活动和隐私侵犯）的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM（如 GPT-4V 和 LLaVA）在安全性上存在重大漏洞，凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。

Jun, 2024

AGI 安全文献综述

本文提供一份简明易懂的参考文献清单，涵盖人工通用智能领域的安全问题、最新研究成果、相关公共政策，以及人们如何思考人工通用智能 .

May, 2018