绝对主义人工智能
本篇论文提出了有限最优性作为一种人工智能的理论基础,该理论基础通过解决机器架构和任务环境的约束优化问题来定义程序的最优性,以在实时环境下构建智能体,其中包括使用自动化邮件排序设施模型来说明结果。
May, 1995
AI 安全措施可能加剧而非减轻存在风险,对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略,每种策略面临 AI 安全景观内固有特征所带来的挑战,例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设,并指出了一些值得进一步研究的方向。
May, 2024
AI 系统的安全性是一个重要的考量,因此作者提出了一个结构化的理由框架,包含四个类别的论证,以证明 AI 系统在训练和部署过程中不太可能引发灾难,并提到控制措施的强度、即使可能造成伤害也是可信的、以及可信的 AI 顾问的权威等内容。
Mar, 2024
讨论机器学习与人工智能技术对社会潜在影响的一个问题:机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题,涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后,思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。
Jun, 2016
本文探讨了当存在独立的多维目标且无法互相归约时,将目标形式化地表示为绝对数学函数所面临的困难性,并提出了使用不确定性目标作为一种替代方案。我们证明了,将已知的某些不可能定理转化为两种设置下的不确定定理,并证明了这些不可能结果所蕴含的不确定度的下限。最后,我们提出了两个关于不确定目标与人工智能系统的严重意外后果之间关系的猜想。
Dec, 2018
人工智能的进展引起了人们对其潜在的巨大危害的关注,本文回顾了两个有影响力的论点,即人工智能可能带来灾难性风险的问题以及人工智能单点突破(Singularity Hypothesis)的讨论,同时总结了该争论的现状。
Jan, 2024
本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法,阐述了其在仿真环境中的有效性,并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题,这可能导致抵制校正。
Jun, 2022