朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

Jun, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

Hua Shen, Tiffany Knearem, Reshmi Ghosh, Kenan Alkiek, Kundan Krishna...

TL;DR近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对2019年至2024年1月间发表的400多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Abstract

Recent advancements in general-purpose AI have highlighted the importance of guiding AI systems towards the intended goals, ethical principles, and values of individuals and groups, a concept broadly recognized as alignment. However, the lack of clarified definitions and scopes of human-ai al

发现论文，激发创造

AI对齐问题的多层框架

该研究探讨人工智能对齐问题，阐述了一个包含四个层次（个人、组织、国家和全球）的框架，分别考虑这些层次的价值观对人工智能的影响，以及这些价值观之间相互影响的方向，最后通过介绍AI内容审核这个案例，展示了该框架的应用。

Jan, 2023

AI对齐对话：支持代理的AI对齐交互式方法

本文介绍了一种新的 AI 与人类协作的方式——AI Alignment Dialogues，通过对家务机器人的机器人控制台，把用户与机器人直接联系起来，实现对人工智能与人的对齐。实验结果显示这种方式可以实现更高效、更透明的人机交互。

Jan, 2023

开发有效的人工智能与人类团队合作：人-机联合认知系统的视角

人工智能与人类团队合作是新的设计范式，需要遵循以人为中心的人工智能(HCAI)方法。本文提出了人工智能与人类联合认知系统(HAIJCS)的概念框架，用于代表并实现人工智能与人类团队合作。

Jul, 2023

AI对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

概念对齐

在讨论人工智能对齐（人与人工智能系统之间的对齐）时，重点放在价值对齐上，广泛指的是创建具有人类价值观的人工智能系统。我们认为，在试图对齐价值之前，AI系统和人类对于理解世界所使用的概念需要对齐，这是至关重要的。我们结合了哲学、认知科学和深度学习的思想，解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点，并概述了达成共享概念的机遇和挑战。最后，我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。

Jan, 2024

关于本质和前景的研究：大型模型的对齐方法调查

大型模型在人工智能领域取得了革命性突破，但也可能引发一些潜在的担忧。本文综合研究价值对齐方法，探究了历史背景、数学本质以及现有对齐方法（强化学习、监督微调和上下文学习）的联系、优势和局限，并讨论了个性对齐和多模态对齐作为该领域的新兴方向。最后，展望了未来对齐范式以及如何处理剩余挑战。

Mar, 2024

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在500名代表性美国人身上试验证明了其有效性。

Mar, 2024

AI对准逆悖论

AI对齐存在悖论：我们越好地将AI模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到AI对齐悖论，并努力寻求突破途径。

May, 2024

超越人工智能对齐中的偏好

本研究针对传统人工智能对齐方法所面临的问题进行探讨，指出偏好并不足以全面体现人类价值观。论文提出了一种新的对齐框架，强调人工智能系统应依据适当的社会角色规范标准进行对齐，以促进各利益相关者之间的协商，进而服务于多样化的目标，减少潜在的伤害。

Aug, 2024

价值指南针：人类与人工智能对齐的基本价值框架

本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论，对人类与语言模型的价值对齐进行了测量，发现存在潜在的风险性不对齐，强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。

Sep, 2024