概念对齐作为价值对齐的前提条件

Oct, 2023

概念对齐作为价值对齐的前提条件

Concept Alignment as a Prerequisite for Value Alignment

Sunayana Rane, Mark Ho, Ilia Sucholutsky, Thomas L. Griffiths

TL;DR人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐，即代理需要与人类相互对齐，以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析，并描述了一种有助于减少价值观不对齐的方法，该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外，本研究通过人类参与者的实验结果表明，人类在意图行为时会考虑代理使用的概念，符合我们的联合推理模型。

Abstract

value alignment is essential for building ai systems that can safely and reliably interact with people. However, what a person values -- and is even capable of valuing -- depends on the concepts that they are cur

value alignment ai systems concept alignment inverse reinforcement learning human reasoning

发现论文，激发创造

概念对齐

在讨论人工智能对齐（人与人工智能系统之间的对齐）时，重点放在价值对齐上，广泛指的是创建具有人类价值观的人工智能系统。我们认为，在试图对齐价值之前，AI 系统和人类对于理解世界所使用的概念需要对齐，这是至关重要的。我们结合了哲学、认知科学和深度学习的思想，解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点，并概述了达成共享概念的机遇和挑战。最后，我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。

Jan, 2024

目标一致性：价值对齐问题的人类意识解释

AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式，并提出了一种交互式算法，用于确定用户的真正基础目标。

Feb, 2023

实用 - 教育价值取向对齐

智能系统与人的目标保持一致是价值对齐问题，我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案，该方案是价值对齐的首个基于经验证的认知模型的形式分析。

Jul, 2017

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

人工智能，价值观和对齐

探讨人工智能对齐问题所涉及的哲学问题，明确目标并提出合理的原则方法来解决技术和规范的问题，从而达成公平的人工智能对齐。

Jan, 2020

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

关于本质和前景的研究：大型模型的对齐方法调查

大型模型在人工智能领域取得了革命性突破，但也可能引发一些潜在的担忧。本文综合研究价值对齐方法，探究了历史背景、数学本质以及现有对齐方法（强化学习、监督微调和上下文学习）的联系、优势和局限，并讨论了个性对齐和多模态对齐作为该领域的新兴方向。最后，展望了未来对齐范式以及如何处理剩余挑战。

Mar, 2024

AI 对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

价值观对齐验证

研究如何在理性和启发式验证测试的情况下，通过最少的查询，构建一种验证价值对齐的‘驾驶员测试’，在广泛的网格环境和一个连续自主驾驶领域中提出和分析启发式和近似价值对齐的验证测试，并证明了存在足够的条件，以通过常数查询复杂性对一组测试环境进行精确定性和近似对齐测试。

Dec, 2020