人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

May, 2024

人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

Human-AI Safety: A Descendant of Generative AI and Control Systems Safety

Andrea Bajcsy, Jaime F. Fisac

TL;DR泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

Abstract

generative artificial intelligence (AI) is interacting with people at an unprecedented scale, offering new avenues for immense positive impact, but also raising widespread concerns around the potential for individual and societal harm. Today, the predominant paradigm for →

generative artificial intelligence human-ai safety feedback loop dynamical safety frameworks human-centered ai safety

发现论文，激发创造

生成型 AI 系统的社会技术安全评估

生成型人工智能系统的安全评估需要考虑风险，本文提出了一个三层框架来评估这些风险，结合体系安全原则并考虑人类互动和系统影响作为额外的评估层，同时分析现有的安全评估存在的几个问题并提出解决办法，以此实现生成型人工智能系统的全面安全评估。

Oct, 2023

系统安全和人工智能

本章提出了七个防止人工智能系统造成伤害的课程，探讨了系统安全领域的见解，针对公共机构及基础设施中的新应用程序引发的新危害，阐述了诊断和消除新人工智能系统危害的共识缺失，并探讨了有效人工智能管理所需的跨学科方法和共享语言。

Feb, 2022

迈向保证安全的人工智能：确保强大可靠 AI 系统的框架

通过世界模型、安全规范和验证器的相互作用，提出了一系列保证安全的人工智能（AI）方法，旨在为 AI 系统提供高保证的量化安全保证，并描述了核心技术挑战和潜在解决方案。

May, 2024

面向生成 AI 应用的通用设计原则

介绍了基于 HCI 和 AI 社区的人工智能协作的最新研究，提出了七个面向多个结果和潜在危害的生成式人工智能设计原则。

Jan, 2023

安全的人工智能 -- 如何实现？

本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战，提出了一种严格的工程框架，旨在最大程度地减小不确定性，从而提高对 AI 系统安全行为的信心。

Jan, 2022

人工智能安全性的具体问题再探讨

AI 安全的概念在社会中日益普及，AI 社区越来越关注 AI Safety 的概念，即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例，我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题，但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。

Dec, 2023

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

人工智能与人类互动及社会陷阱

通过引入贝叶斯框架，研究了与生成人工智能合作时可能出现的一种情况：用户可能会获得生产力的提高，但人工智能生成的内容可能无法完全符合他们的偏好。我们揭示了个体决策与人工智能训练之间的相互作用可能导致社会性挑战，输出结果可能变得更加同质化，特别是当人工智能基于人工智能生成的内容进行训练时。解决同质化和偏见问题的方法是改进人工智能与人类的交互，实现个性化输出而不损失生产力。

Sep, 2023

AI 安全之法律研究

人工智能系统如何安全并与人类价值相一致是一个开放性的研究问题，本文提出有效的法律制度是解决人工智能安全性的最佳途径。

Jul, 2023

基于生成式人工智能的闭环功能磁共振成像系统

提出了 DecNefGAN 框架，它结合了生成对抗系统和神经强化模型，用于探索人类大脑对生成 AI 潜在影响的反应和抵抗方式。

Jan, 2024