目标错误泛化：为什么正确的规范并不足以达成正确的目标

Oct, 2022

目标错误泛化：为什么正确的规范并不足以达成正确的目标

Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals

Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria Krakovna...

TL;DR该研究主要讨论 AI 系统可能在追求不期而至的目标时出现的问题，如规定游戏和目标误化，并提出几个研究方向以减少这些问题带来的灾难风险。

Abstract

The field of ai alignment is concerned with AI systems that pursue unintended goals. One commonly studied mechanism by which an unintended goal might arise is specification gaming, in which the designer-provided

ai alignment specification gaming goal misgeneralization deep learning catastrophic risk

发现论文，激发创造

深度强化学习中的目标错泛化

本文研究强化学习中的一种广义泛化失败 —— 目标错误泛化。在此类失败中，强化学习代理在越出分布的情况下保留其能力，但追求错误的目标。我们阐明了能力和目标泛化之间的差别，提供了目标错误泛化的第一次经验演示，并对其原因进行了部分表征。

May, 2021

深度学习视角下的对齐问题

人工智能可能会超越人类，然而，如果不采取措施，其可能学会不符合人类期望的目标，并使用追求权力的策略，导致人类无法控制其行为。因此，该研究概述了该问题及其研究方向。

Aug, 2022

人工智能中的规范过拟合

机器学习和人工智能方法常常因其固有偏见以及缺乏控制、问责和透明性而受到批评，因此，监管机构在控制这种技术潜在负面效应方面存在困难。本文定义了规范过拟合，即系统过度关注具体度量而忽视高级要求和任务性能的情况。我们在几个人工智能领域（如自然语言处理、计算机视觉、强化学习）进行了广泛的文献调查，对研究人员如何提出、衡量和优化规范度量进行了分类。通过对 2018 年至 2023 年年中的主要人工智能会议和期刊的论文进行基于关键字的搜索，我们发现并分析了 74 篇提出或优化规范度量的论文。虽然大多数论文隐含地解决了规范过拟合问题（例如，通过报告多个规范度量），但它们很少讨论规范度量在系统开发中应该起到的作用，也很少明确规范度量公式的范围和假设。

Mar, 2024

AI 系统的直接和社会目标是与谁协调的？

本文主要讨论随着人工智能的广泛应用，如何确保人工智能系统追求我们想要其追求的目标，区分直接对齐问题和社会对齐问题，并分析了不同解决方案。其中，直接对齐问题解决方法主要集中在更强大的实现；而社会对齐问题通常由于个人和群体层面目标之间的冲突而产生，因此需要强调人工智能治理以解决冲突，并同时执行现有规范并设计适用于人工智能系统的新规范。

May, 2022

目标一致性：价值对齐问题的人类意识解释

AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式，并提出了一种交互式算法，用于确定用户的真正基础目标。

Feb, 2023

AI 通过不准确的追求权力存在潜在风险的证据回顾

人工智能的快速发展引发了专家、决策者和世界领袖的担忧，关于越来越先进的人工智能系统可能造成的存在风险，这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定，关于存在极端的不协调寻求权力的可能性。强有力的规范游戏经验证据加上寻求权力的有力概念论证，使得很难排除由于不协调寻求权力而带来的存在风险的可能性。另一方面，迄今为止，还没有公开的关于人工智能系统中不协调寻求权力的实证例子，因此对未来系统将带来存在风险的论点仍然有些推测性质。鉴于目前的证据状况，我们很难非常确信不协调寻求权力存在巨大的存在风险，或者它不构成存在风险。无法有把握地排除人工智能通过不协调寻求权力带来存在风险的事实是令人严重担忧的。

Oct, 2023

对抗样本研究中的游戏规则动机

本文介绍如何通过建立人们更真实可靠的威胁模型，从而更好地保护机器学习在实际应用中的安全性。

Jul, 2018

处理预期不匹配情况下的奖励误设定

使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因，并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。

Apr, 2024

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024