人工智能，价值观和对齐

Jan, 2020

Artificial Intelligence, Values and Alignment

Iason Gabriel

TL;DR探讨人工智能对齐问题所涉及的哲学问题，明确目标并提出合理的原则方法来解决技术和规范的问题，从而达成公平的人工智能对齐。

Abstract

This paper looks at philosophical questions that arise in the context of AI alignment. It defends three propositions. First, normative and technical aspects of the ai alignment problem are interrelated, creating space for productive engagement between people working in both domains. Se

ai alignment normative aspects technical aspects goal of alignment fair principles

发现论文，激发创造

AI 对准的基础道德价值

解决人工智能对齐问题需要明确且可靠的价值取向；本文提出了从道德哲学中提取的五个核心、基础价值观，即生存、可持续的代际存在、社会、教育和真理，并表明这些价值观不仅为技术对齐工作提供了更清晰的方向，还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。

Nov, 2023

AI 对齐问题的多层框架

该研究探讨人工智能对齐问题，阐述了一个包含四个层次（个人、组织、国家和全球）的框架，分别考虑这些层次的价值观对人工智能的影响，以及这些价值观之间相互影响的方向，最后通过介绍 AI 内容审核这个案例，展示了该框架的应用。

Jan, 2023

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

伦理人工智能的人类价值计算框架

通过社会科学根植的正式概念框架，系统、集成和跨学科地探究人类价值如何支持设计道德人工智能，从而解决价值对齐问题和其他相关的挑战，如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。

May, 2023

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024

动态规范性：价值对齐的必要与充分条件

本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性，并提出了一个名为 Dynamic Normativity 的框架来解决通过学习范式对人工智能系统进行对齐的问题。

Jun, 2024

AI 对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

概念对齐

在讨论人工智能对齐（人与人工智能系统之间的对齐）时，重点放在价值对齐上，广泛指的是创建具有人类价值观的人工智能系统。我们认为，在试图对齐价值之前，AI 系统和人类对于理解世界所使用的概念需要对齐，这是至关重要的。我们结合了哲学、认知科学和深度学习的思想，解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点，并概述了达成共享概念的机遇和挑战。最后，我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。

Jan, 2024

人工智能中人类价值的代理机构之间的紧张关系

我们认为社区旨在减轻技术的潜在危害影响，通过定义公私保密、公平和透明模型等一些责任支柱作为指标是根本错误的，因为这些定义是人类价值的不完美、独立构建，而带着那些价值完全嵌入我们的技术的幌子。我们推动 AI 社区重新考虑某些支柱公式的选择带来的所有后果，而不仅仅是技术上的不兼容性，而是在部署背景下的影响。我们指出社会技术研究可以为后者提供框架，但还应推动更广泛的实践落地。

Dec, 2022

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024