价值观对齐验证

ICMLDec, 2020

Value Alignment Verification

Daniel S. Brown, Jordan Schneider, Anca D. Dragan, Scott Niekum

TL;DR研究如何在理性和启发式验证测试的情况下，通过最少的查询，构建一种验证价值对齐的‘驾驶员测试’，在广泛的网格环境和一个连续自主驾驶领域中提出和分析启发式和近似价值对齐的验证测试，并证明了存在足够的条件，以通过常数查询复杂性对一组测试环境进行精确定性和近似对齐测试。

Abstract

As humans interact with autonomous agents to perform increasingly complicated, potentially risky tasks, it is important to be able to efficiently evaluate an agent's performance and correctness. In this paper we formalize and theoretically analyze the problem of efficient →

autonomous agents value alignment verification rational agents heuristic verification tests continuous autonomous driving

发现论文，激发创造

目标一致性：价值对齐问题的人类意识解释

AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式，并提出了一种交互式算法，用于确定用户的真正基础目标。

Feb, 2023

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

实用 - 教育价值取向对齐

智能系统与人的目标保持一致是价值对齐问题，我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案，该方案是价值对齐的首个基于经验证的认知模型的形式分析。

Jul, 2017

使用规范先验训练价值对齐强化学习智能体

通过训练一种双重奖励信号的智能体，其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励，我们介绍了一种价值对齐的强化学习方法，并展示了如何使用策略塑形技术平衡这两种奖励信号，以便产生既有效又更规范的策略，在三个互动的基于文本的世界中对其进行了测试。

Apr, 2021

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

概念对齐作为价值对齐的前提条件

人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐，即代理需要与人类相互对齐，以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析，并描述了一种有助于减少价值观不对齐的方法，该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外，本研究通过人类参与者的实验结果表明，人类在意图行为时会考虑代理使用的概念，符合我们的联合推理模型。

Oct, 2023

大型语言模型的异构价值评估

本研究提出了 A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

设计人机一致性：了解人类对其代理人的需求

我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究，发现为了代理成功完成任务，人类 / 用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些经验研究结果扩展了以往有关过程和规范对齐以及人工智能与人类交互中价值观和安全性需求的相关工作，并讨论了设计师在设想充满人类 - 代理协作的世界中的三个设计方向。

Apr, 2024

规范多智能体系统中的多值对齐：进化优化方法

使用多目标进化算法的多值推广模型，为多价异构代理和系统提供与多个价值一致的规范参数集，以理解此复杂问题的各个方面，并考虑对解决方案的影响以及优先考虑价值之间关系的重要性。

May, 2023

多智能体系统中的人类价值观

本文提供一个源于社会科学、能够形式化表达价值的形式化表述，并使用此表述明确了实现 AI 价值对齐的关键挑战和研究路线图。

May, 2023