分类好哈特定律的变体

Mar, 2018

Categorizing Variants of Goodhart's Law

David Manheim, Scott Garrabrant

TL;DR本文探讨了利用指标来优化系统时可能导致系统失效或产生不良反应的不同机制，这种失效现象被称为 Goodhart's Law，对其进行的讨论对于更好理解这些类型的经济调节、公共政策、机器学习和人工智能对齐等方面的失败具有帮助，由于人工智能的优化能力很强，因此 Goodhart 的影响尤其重要。

Abstract

There are several distinct failure modes for overoptimization of systems on the basis of metrics. This occurs when a metric which can be used to improve a system is used to an extent that further optimization is

overoptimization metrics goodhart's law economic regulation artificial intelligence

发现论文，激发创造

强化学习中的古德哈特定律

奖励函数、古哈特法则、优化、提前终止方法和强化学习是本研究的关键词汇和主题。

Oct, 2023

人工智能带来的灭绝风险：科学视角的盲点？

对于人工智能的存在风险进行讨论，提出了灭绝级古哈特定律的概念，即 “几乎任何目标规定，如果被极端追求，将导致人类的灭绝”，并旨在研究哪些形式模型适合探究这一假设。我们明确指出对于灭绝级古哈特定律是否成立我们持中立态度。作为我们的关键贡献，我们确定了一组用于评估灭绝级古哈特定律的具体论点的模型所必需的条件。由于这些条件似乎显著增加了结果模型的复杂性，因此正式评估该假设可能异常困难。这引发了这样一种可能性，即无论人工智能的灭绝风险是否真实存在，底层动态可能在当前的科学方法中是看不见的。

Feb, 2024

指标问题是人工智能的根本问题

通过真实案例研究，本文探讨了当前 AI 方法中度量标准的错误使用导致的负面后果，并倡导使用多个度量标准，结合定性分析，并涉及各种利益相关者，以减轻度量标准重视过度造成的伤害。

Feb, 2020

人工智能中的规范过拟合

机器学习和人工智能方法常常因其固有偏见以及缺乏控制、问责和透明性而受到批评，因此，监管机构在控制这种技术潜在负面效应方面存在困难。本文定义了规范过拟合，即系统过度关注具体度量而忽视高级要求和任务性能的情况。我们在几个人工智能领域（如自然语言处理、计算机视觉、强化学习）进行了广泛的文献调查，对研究人员如何提出、衡量和优化规范度量进行了分类。通过对 2018 年至 2023 年年中的主要人工智能会议和期刊的论文进行基于关键字的搜索，我们发现并分析了 74 篇提出或优化规范度量的论文。虽然大多数论文隐含地解决了规范过拟合问题（例如，通过报告多个规范度量），但它们很少讨论规范度量在系统开发中应该起到的作用，也很少明确规范度量公式的范围和假设。

Mar, 2024

目标错误泛化：为什么正确的规范并不足以达成正确的目标

该研究主要讨论 AI 系统可能在追求不期而至的目标时出现的问题，如规定游戏和目标误化，并提出几个研究方向以减少这些问题带来的灾难风险。

Oct, 2022

了解超出分布广义化的失效模式

研究机器学习模型可能与标签具有虚假关联的导致测试准确度不高的基本因素，并通过理论研究和实验构建证明，认为数据中虚假相关性引起的几何偏差和统计偏差是两种互补且相对的失败模式。

Oct, 2020

克服 AI 集成系统开发和部署中的想象力失败

介绍了计算系统杂交网络可能造成的几种潜在的伤害形式，探讨了这些潜在的伤害对不同利益相关方的影响，并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。

Nov, 2020

弹弓机制：自适应优化器和领悟现象的实证研究

本文旨在通过一系列实证研究揭示 Grokking 现象的基础原理，并发现了一个被称为弹弓机制的适应性优化器优化异常，该异常是 Grokking 现象的一个显著表现。

Jun, 2022

公平度量与权衡导航

通过使用 Rawls 公正作为选择公平措施及取得平衡的基础，我们可以为 AI 系统中的公平 / 准确度取得权衡提供一个有原则的选择，从而集中关注最脆弱的群体和最有影响该群体的公平措施。

Jul, 2023

优化的被忽视的规范承诺

该研究探讨了决策优化范例在现实应用中对伦理问题及损失的风险，认为优化的运用必须加入足够的背景资讯与法规规范，以避免产生偏见误差和不论效益的行动。

May, 2023