无需对齐的安全

Feb, 2023

Safety without alignment

András Kornai, Michael Bukatin, Zsolt Zombori

TL;DR本文提出了一种基于伦理理性和杂交定理证明器的人工智能安全性实现方法，通过将 AI 的伦理道德与其理性联系起来，可以具有长期优势并避免伦理道德偏差与对人类价值的偏差。

Abstract

Currently, the dominant paradigm in ai safety is alignment with human values. Here we describe progress on developing an alternative approach to safety, based on →

ai safety ethical rationalism hybrid theorem provers alignment rationality

发现论文，激发创造

可证明安全系统：控制可达人工通用智能的唯一路径

通过利用先进的人工智能进行形式验证和机械解释，我们描述了人类安全繁荣与强大人工通用智能（AGIs）共存的路径，并主张这是唯一能确保安全可控 AGI 的途径，提出了一系列能推动这个积极结果的挑战问题，并邀请读者一同参与这项工作。

Sep, 2023

迈向保证安全的人工智能：确保强大可靠 AI 系统的框架

通过世界模型、安全规范和验证器的相互作用，提出了一系列保证安全的人工智能（AI）方法，旨在为 AI 系统提供高保证的量化安全保证，并描述了核心技术挑战和潜在解决方案。

May, 2024

人工智能，价值观和对齐

探讨人工智能对齐问题所涉及的哲学问题，明确目标并提出合理的原则方法来解决技术和规范的问题，从而达成公平的人工智能对齐。

Jan, 2020

伦理道德作为人工智能治理工具的效率

本文对人工智能伦理学的现状进行了批判性分析，并认为基于原则性伦理准则的这种治理形式不足以规范人工智能行业及其开发者。建议通过对人工智能相关专业人员的培训过程和增加对其行业的监管来实现根本性变革。为此，建议法律应从生物伦理学中获益，并将人工智能伦理学的探索成果在法律条文中加以明确规范。

Oct, 2022

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024

AI 安全之法律研究

人工智能系统如何安全并与人类价值相一致是一个开放性的研究问题，本文提出有效的法律制度是解决人工智能安全性的最佳途径。

Jul, 2023

跨模态安全对齐

人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型安全对齐挑战，以评估交叉模态的安全对齐性。具体而言，它考虑了单一模态在独立情况下安全，但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查，我们开发了 SIUO，一个涵盖了 9 个关键安全领域（如自残、非法活动和隐私侵犯）的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM（如 GPT-4V 和 LLaVA）在安全性上存在重大漏洞，凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。

Jun, 2024

安全的人工智能 -- 如何实现？

本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战，提出了一种严格的工程框架，旨在最大程度地减小不确定性，从而提高对 AI 系统安全行为的信心。

Jan, 2022

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024