人工智能安全与网络安全：AI 失败的时间线

Oct, 2016

人工智能安全与网络安全：AI 失败的时间线

Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures

Roman V. Yampolskiy, M. S. Spellchecker

TL;DR研究人工智能的安全性，认为未来人工智能的故障频率和严重性将不断增加，并将其与网络安全相比较。对于一般人工智能系统失误的影响将比狭窄人工智能系统更深远，建议应加强其安全性以确保零失误的发生，尽管这是不可能的。

Abstract

In this work, we present and analyze reported failures of artificially intelligent systems and extrapolate our analysis to future AIs. We suggest that both the frequency and the seriousness of future ai failures will steadily increase. →

ai failures ai safety cybersecurity narrow ai general ai

发现论文，激发创造

人工智能安全性的具体问题再探讨

AI 安全的概念在社会中日益普及，AI 社区越来越关注 AI Safety 的概念，即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例，我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题，但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。

Dec, 2023

系统安全和人工智能

本章提出了七个防止人工智能系统造成伤害的课程，探讨了系统安全领域的见解，针对公共机构及基础设施中的新应用程序引发的新危害，阐述了诊断和消除新人工智能系统危害的共识缺失，并探讨了有效人工智能管理所需的跨学科方法和共享语言。

Feb, 2022

人工智能安全：通往末日的攀登？

AI 安全措施可能加剧而非减轻存在风险，对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略，每种策略面临 AI 安全景观内固有特征所带来的挑战，例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设，并指出了一些值得进一步研究的方向。

May, 2024

AI 安全：必要，但不足且可能存在问题

人工智能安全性的炒作对于推进社会公益的其他人工智能研究途径产生冲突，因为 AI 安全性与透明度等社会公益相关概念存在微妙而棘手的关系。此外，AI 安全性辩论也可能使一些监管工作朝着不太理想的方向发展，同时给会造成结构性伤害的 AI 提供一种贴上安全标签的机会。

Mar, 2024

人工智能在网络安全中的应用：威胁、攻击和缓解

讨论了网络安全、网络威胁以及传统和智能防御措施，并最终以人工智能在网络安全领域未来的前景作为讨论的结尾。

Sep, 2022

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

安全的人工智能 -- 如何实现？

本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战，提出了一种严格的工程框架，旨在最大程度地减小不确定性，从而提高对 AI 系统安全行为的信心。

Jan, 2022

安全案例：为先进人工智能系统提供安全证明

AI 系统的安全性是一个重要的考量，因此作者提出了一个结构化的理由框架，包含四个类别的论证，以证明 AI 系统在训练和部署过程中不太可能引发灾难，并提到控制措施的强度、即使可能造成伤害也是可信的、以及可信的 AI 顾问的权威等内容。

Mar, 2024

AAAI 2022 年人工智能网络安全 (AICS) 研讨会会议录

本文讨论了人工智能在网络安全领域的应用，探讨了 AI 面临的挑战，以及在实践中普及 AI 的原因和现实难点。

Feb, 2022

人工智能安全：量化视角下的现状

该研究提供了一个基于文献计量学的量化研究方法，发现自 2015 年以来，AI 安全领域的研究活动显著增加。然而，在技术问题、长期效用、价值联结以及政策方面仍存在一些研究知识空白需要进一步研究和探索。

Feb, 2020