通过数学模型,我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层,该层可以在多种情况下部分或完全压制代理人的潜在危险,包括操纵其改进流程,并通过数学证明展示了本系统的工作原理。
Jul, 2020
本论文提出一种基于概念依赖的通用框架,强调所涉及的表征必须是显式认知和概念性的,并且必须包含涉及事件和过程的因果特征,并使用完全基于参考的概念结构。论文还介绍了一种描述性表征语言,并描述了许多其使用示例。
Jun, 2022
形式化了代理随决策而控制的变量及响应的变量的激励机制,并演示了在任何单一决策因果影响图中,检测这些激励机制的独特图形标准;引入了结构因果影响模型,它是影响图和结构因果模型框架的混合体;最后,说明了这些激励机制如何预测公正和人工智能安全应用中的代理激励。
Jan, 2020
本文提出了第一个正式的有关案例的因果定义 - 粗略地说,机构是指如果其行动以不同的方式影响世界将适应其策略的系统。从此,我们推导出了第一个通过实证数据发现代理的因果发现算法,并提供了在因果模型和博弈理论影响图之间进行转换的算法。我们通过解决一些由于错误的因果建模导致的先前混乱来演示我们的方法。
Aug, 2022
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
本文旨在统一因果建模和决策分析两大领域,提出了一种新的因果影响图的模型来描述因果依赖关系,并讨论了 Howard 规范形式在此模型中的作用。
Feb, 2013
通过利用先进的人工智能进行形式验证和机械解释,我们描述了人类安全繁荣与强大人工通用智能(AGIs)共存的路径,并主张这是唯一能确保安全可控 AGI 的途径,提出了一系列能推动这个积极结果的挑战问题,并邀请读者一同参与这项工作。
Sep, 2023
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为 AI 系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
May, 2024
人工通用智能(AGI)越来越多地融入到人类生活的各个方面,确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁,这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出(SIUO)” 的新型安全对齐挑战,以评估交叉模态的安全对齐性。具体而言,它考虑了单一模态在独立情况下安全,但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查,我们开发了 SIUO,一个涵盖了 9 个关键安全领域(如自残、非法活动和隐私侵犯)的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM(如 GPT-4V 和 LLaVA)在安全性上存在重大漏洞,凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。
Jun, 2024
本文提供一份简明易懂的参考文献清单,涵盖人工通用智能领域的安全问题、最新研究成果、相关公共政策,以及人们如何思考人工通用智能 .
May, 2018