通过迭代改进效用函数实现 AGI 智能体安全
通过利用先进的人工智能进行形式验证和机械解释,我们描述了人类安全繁荣与强大人工通用智能(AGIs)共存的路径,并主张这是唯一能确保安全可控 AGI 的途径,提出了一系列能推动这个积极结果的挑战问题,并邀请读者一同参与这项工作。
Sep, 2023
为了确保人工智能系统的安全性和长期代理的保留,应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性,并且应该在 “代理基础” 领域进行研究,以改进我们对人工智能与人类交互中代理的理解。
May, 2023
提出一种基于经验的理论框架,称为 “实用弱点原则”,用于处理认知科学和人工智能中的主观性问题,并将其与 AIXI 进行比较,显示出在弱点最大化的情况下会取得最优的行为结果。
May, 2022
通过结合经典人工智能技术 —— 专家系统与现代适应性梯度下降训练的专家系统(GDTES),利用生成式人工智能(GAI)创建网络和训练数据集的机制,本研究提出了一种人工智能的学习和发展推理路径以在先验未知领域做决策的方法,并展示了朝着产生人工通用智能(AGI)的目标迈出的小步骤。
Jun, 2024
人工智能的发展深刻影响了人类社会,并在多个领域取得了重大进展。然而,对人工智能的不断需求突显了其现有能力的局限性,推动了向人工通用智能(AGI)的发展。AGI 以其与人类智能相当的效率和有效性,具备执行多样化现实任务的能力,代表着人工智能演进的重要里程碑。本文通过广泛的调查、讨论和原创观点,深入探讨了接近 AGI 的关键问题及其实现所需的策略,不同于现有的综述文献。我们首先阐述了 AGI 的必要能力框架,整合了内部、界面和系统维度。由于实现 AGI 需要更先进的能力和严格的约束条件,我们进一步讨论了必要的 AGI 对齐技术,以协调这些因素。值得注意的是,我们强调通过首先定义 AGI 进展的关键级别来负责任地对待 AGI,然后评估现状的评价框架,并最终提出了达到 AGI 巅峰的路线图。此外,为了提供对 AI 整合的普遍影响的切实见解,我们概述了在多个领域实现 AGI 所面临的挑战和可能的途径。总之,作为对 AGI 当前状态和未来轨迹的先驱性探索,本文旨在促进研究人员和实践者之间的集体理解,并引发更广泛的公众讨论。
May, 2024
人工通用智能(AGI)越来越多地融入到人类生活的各个方面,确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁,这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出(SIUO)” 的新型安全对齐挑战,以评估交叉模态的安全对齐性。具体而言,它考虑了单一模态在独立情况下安全,但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查,我们开发了 SIUO,一个涵盖了 9 个关键安全领域(如自残、非法活动和隐私侵犯)的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM(如 GPT-4V 和 LLaVA)在安全性上存在重大漏洞,凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。
Jun, 2024
本研究探讨了多学科方法在测试和调整人工通用智能(AGI)和 LLMs 方面的潜力。通过在虚拟现实框架中采用基于模拟的多智能体系统,模拟真实世界环境中的复杂社会结构和相互作用,通过应用社会学、社会心理学、计算机科学、物理学、生物学和经济学等领域的各种理论,展示了实现更具人类对齐和社会责任的 AGI 的可能性。该研究旨在为 AGI 的开发和改进做出贡献,强调社会、伦理和理论维度的整合以供未来研究参考。
Dec, 2023