绝对主义人工智能

Jul, 2023

Absolutist AI

Mitchell Barrington

TL;DR通过使用绝对限制来训练人工智能系统，可以在原则上在许多人工智能安全问题上取得重大进展。

Abstract

This paper argues that training ai systems with absolute constraints -- which forbid certain acts irrespective of the amount of value they might produce -- may make considerable progress on many →

training ai systems absolute constraints ai safety problems misalignment corrigible systems

发现论文，激发创造

建设具有道德约束的人工智能

本文提出伦理约束 AI 的概念，探讨在 AI 普及的情况下如何确保 AI 代理具备合适的伦理品质与决策技能，涉及决策制定中的模块化和组合方法。

Dec, 2018

AI 安全之法律研究

人工智能系统如何安全并与人类价值相一致是一个开放性的研究问题，本文提出有效的法律制度是解决人工智能安全性的最佳途径。

Jul, 2023

可证明的有界最优智能体

本篇论文提出了有限最优性作为一种人工智能的理论基础，该理论基础通过解决机器架构和任务环境的约束优化问题来定义程序的最优性，以在实时环境下构建智能体，其中包括使用自动化邮件排序设施模型来说明结果。

May, 1995

人工智能安全：通往末日的攀登？

AI 安全措施可能加剧而非减轻存在风险，对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略，每种策略面临 AI 安全景观内固有特征所带来的挑战，例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设，并指出了一些值得进一步研究的方向。

May, 2024

安全案例：为先进人工智能系统提供安全证明

AI 系统的安全性是一个重要的考量，因此作者提出了一个结构化的理由框架，包含四个类别的论证，以证明 AI 系统在训练和部署过程中不太可能引发灾难，并提到控制措施的强度、即使可能造成伤害也是可信的、以及可信的 AI 顾问的权威等内容。

Mar, 2024

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

人工智能价值对齐的不可能性和不确定性定理（或者为什么您的通用人工智能不应该具有效用函数）

本文探讨了当存在独立的多维目标且无法互相归约时，将目标形式化地表示为绝对数学函数所面临的困难性，并提出了使用不确定性目标作为一种替代方案。我们证明了，将已知的某些不可能定理转化为两种设置下的不确定定理，并证明了这些不可能结果所蕴含的不确定度的下限。最后，我们提出了两个关于不确定目标与人工智能系统的严重意外后果之间关系的猜想。

Dec, 2018

无需对齐的安全

本文提出了一种基于伦理理性和杂交定理证明器的人工智能安全性实现方法，通过将 AI 的伦理道德与其理性联系起来，可以具有长期优势并避免伦理道德偏差与对人类价值的偏差。

Feb, 2023

人工智能：灾难性风险的论据

人工智能的进展引起了人们对其潜在的巨大危害的关注，本文回顾了两个有影响力的论点，即人工智能可能带来灾难性风险的问题以及人工智能单点突破（Singularity Hypothesis）的讨论，同时总结了该争论的现状。

Jan, 2024

避免人工智能寻求权力

本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法，阐述了其在仿真环境中的有效性，并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题，这可能导致抵制校正。

Jun, 2022