系统安全和人工智能

Feb, 2022

System Safety and Artificial Intelligence

Roel I.J. Dobbe

TL;DR本章提出了七个防止人工智能系统造成伤害的课程，探讨了系统安全领域的见解，针对公共机构及基础设施中的新应用程序引发的新危害，阐述了诊断和消除新人工智能系统危害的共识缺失，并探讨了有效人工智能管理所需的跨学科方法和共享语言。

Abstract

This chapter formulates seven lessons for preventing harm in artificial intelligence (AI) systems based on insights from the field of system safety for software-based automation in safety-critical domains. New applications of AI across societal domains and public organizations and infr

artificial intelligence system safety hazards design governance

发现论文，激发创造

人工智能安全性的具体问题再探讨

AI 安全的概念在社会中日益普及，AI 社区越来越关注 AI Safety 的概念，即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例，我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题，但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。

Dec, 2023

AI 安全之法律研究

人工智能系统如何安全并与人类价值相一致是一个开放性的研究问题，本文提出有效的法律制度是解决人工智能安全性的最佳途径。

Jul, 2023

安全案例：为先进人工智能系统提供安全证明

AI 系统的安全性是一个重要的考量，因此作者提出了一个结构化的理由框架，包含四个类别的论证，以证明 AI 系统在训练和部署过程中不太可能引发灾难，并提到控制措施的强度、即使可能造成伤害也是可信的、以及可信的 AI 顾问的权威等内容。

Mar, 2024

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024

安全的人工智能 -- 如何实现？

本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战，提出了一种严格的工程框架，旨在最大程度地减小不确定性，从而提高对 AI 系统安全行为的信心。

Jan, 2022

机器学习安全性：网络物理系统、决策科学和数据产品

本论文旨在明确机器学习安全的定义，并通过研究智能决策科学和数据产品等应用领域，探讨实现机器学习安全的四种策略，包括内在安全设计、安全保护垫、安全失败和程序保护，并提出相应的技术方法和异议函数，以确保解释性、因果性、人工参与和用户体验设计等方面的安全性。

Oct, 2016

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

人工智能安全与网络安全：AI 失败的时间线

研究人工智能的安全性，认为未来人工智能的故障频率和严重性将不断增加，并将其与网络安全相比较。对于一般人工智能系统失误的影响将比狭窄人工智能系统更深远，建议应加强其安全性以确保零失误的发生，尽管这是不可能的。

Oct, 2016

人工智能引发的社会危害的多样性和综合人工智能法律的失败

该研究提出了分类 AI 系统以解决其引发的不同类型的社会危害，同时呼吁政府逐步适应现有法规以适应 AI 的创新发展。

Mar, 2023