系统安全和人工智能
AI 安全的概念在社会中日益普及,AI 社区越来越关注 AI Safety 的概念,即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例,我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题,但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。
Dec, 2023
AI 系统的安全性是一个重要的考量,因此作者提出了一个结构化的理由框架,包含四个类别的论证,以证明 AI 系统在训练和部署过程中不太可能引发灾难,并提到控制措施的强度、即使可能造成伤害也是可信的、以及可信的 AI 顾问的权威等内容。
Mar, 2024
讨论机器学习与人工智能技术对社会潜在影响的一个问题:机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题,涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后,思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。
Jun, 2016
泛人工智能与人类的互动达到了前所未有的规模,为巨大的积极影响提供了新途径,但也引发了广泛关注,担忧其对个体和社会可能造成的伤害。本文中,我们认为,对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此,我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机,为未来几十年的人类中心人工智能安全奠定了新基础。
May, 2024
本文探讨了 AI 系统在不可预测的环境下操作时带来的挑战,提出了一种严格的工程框架,旨在最大程度地减小不确定性,从而提高对 AI 系统安全行为的信心。
Jan, 2022
本论文旨在明确机器学习安全的定义,并通过研究智能决策科学和数据产品等应用领域,探讨实现机器学习安全的四种策略,包括内在安全设计、安全保护垫、安全失败和程序保护,并提出相应的技术方法和异议函数,以确保解释性、因果性、人工参与和用户体验设计等方面的安全性。
Oct, 2016
本文使用分层复杂系统框架对人工智能(AI)风险进行建模,并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性,结果显示强大的 AI 代理情景有更多不确定性,对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。
Nov, 2022
研究人工智能的安全性,认为未来人工智能的故障频率和严重性将不断增加,并将其与网络安全相比较。对于一般人工智能系统失误的影响将比狭窄人工智能系统更深远,建议应加强其安全性以确保零失误的发生,尽管这是不可能的。
Oct, 2016