AI对齐问题的多层框架

Jan, 2023

A Multi-Level Framework for the AI Alignment Problem

Betty Li Hou, Brian Patrick Green

TL;DR该研究探讨人工智能对齐问题，阐述了一个包含四个层次（个人、组织、国家和全球）的框架，分别考虑这些层次的价值观对人工智能的影响，以及这些价值观之间相互影响的方向，最后通过介绍AI内容审核这个案例，展示了该框架的应用。

Abstract

ai alignment considers how we can encode AI systems in a way that is compatible with human values. The normative side of this problem asks

发现论文，激发创造

AI对准的基础道德价值

解决人工智能对齐问题需要明确且可靠的价值取向；本文提出了从道德哲学中提取的五个核心、基础价值观，即生存、可持续的代际存在、社会、教育和真理，并表明这些价值观不仅为技术对齐工作提供了更清晰的方向，还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。

Nov, 2023

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI开发者和伦理学家可以更好地设计和评估AI系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

概念对齐

在讨论人工智能对齐（人与人工智能系统之间的对齐）时，重点放在价值对齐上，广泛指的是创建具有人类价值观的人工智能系统。我们认为，在试图对齐价值之前，AI系统和人类对于理解世界所使用的概念需要对齐，这是至关重要的。我们结合了哲学、认知科学和深度学习的思想，解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点，并概述了达成共享概念的机遇和挑战。最后，我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。

Jan, 2024

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在500名代表性美国人身上试验证明了其有效性。

Mar, 2024

AI对准逆悖论

AI对齐存在悖论：我们越好地将AI模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到AI对齐悖论，并努力寻求突破途径。

May, 2024

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决AI对齐问题中复杂的利益冲突，为AI工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对2019年至2024年1月间发表的400多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

动态规范性：价值对齐的必要与充分条件

本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性，并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。

Jun, 2024

超越人工智能对齐中的偏好

本研究针对传统人工智能对齐方法所面临的问题进行探讨，指出偏好并不足以全面体现人类价值观。论文提出了一种新的对齐框架，强调人工智能系统应依据适当的社会角色规范标准进行对齐，以促进各利益相关者之间的协商，进而服务于多样化的目标，减少潜在的伤害。

Aug, 2024

价值指南针：人类与人工智能对齐的基本价值框架

本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论，对人类与语言模型的价值对齐进行了测量，发现存在潜在的风险性不对齐，强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。

Sep, 2024