无需对齐的安全
通过利用先进的人工智能进行形式验证和机械解释,我们描述了人类安全繁荣与强大人工通用智能(AGIs)共存的路径,并主张这是唯一能确保安全可控 AGI 的途径,提出了一系列能推动这个积极结果的挑战问题,并邀请读者一同参与这项工作。
Sep, 2023
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为 AI 系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
May, 2024
本文对人工智能伦理学的现状进行了批判性分析,并认为基于原则性伦理准则的这种治理形式不足以规范人工智能行业及其开发者。建议通过对人工智能相关专业人员的培训过程和增加对其行业的监管来实现根本性变革。为此,建议法律应从生物伦理学中获益,并将人工智能伦理学的探索成果在法律条文中加以明确规范。
Oct, 2022
AI 对齐存在悖论:我们越好地将 AI 模型与我们的价值观相一致,就越容易让对手使模型不一致。为确保人类福祉,必须确保广泛研究者共同意识到 AI 对齐悖论,并努力寻求突破途径。
May, 2024
人工通用智能(AGI)越来越多地融入到人类生活的各个方面,确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁,这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出(SIUO)” 的新型安全对齐挑战,以评估交叉模态的安全对齐性。具体而言,它考虑了单一模态在独立情况下安全,但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查,我们开发了 SIUO,一个涵盖了 9 个关键安全领域(如自残、非法活动和隐私侵犯)的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM(如 GPT-4V 和 LLaVA)在安全性上存在重大漏洞,凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。
Jun, 2024
本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战,提出了一种严格的工程框架,旨在最大程度地减小不确定性,从而提高对 AI 系统安全行为的信心。
Jan, 2022
为了确保人工智能系统的安全性和长期代理的保留,应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性,并且应该在 “代理基础” 领域进行研究,以改进我们对人工智能与人类交互中代理的理解。
May, 2023
泛人工智能与人类的互动达到了前所未有的规模,为巨大的积极影响提供了新途径,但也引发了广泛关注,担忧其对个体和社会可能造成的伤害。本文中,我们认为,对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此,我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机,为未来几十年的人类中心人工智能安全奠定了新基础。
May, 2024