Oct, 2023

在交互式 AI 设计中的 AI 对齐:规范对齐、过程对齐和评估支持

TL;DRAI 对齐是确保 AI 产生期望结果而无副作用的总体问题,可以从安全性、人类价值以及设计和评价交互式 AI 系统的界面的角度进行考虑。本文将 AI 对齐的概念映射到一个基本的三步交互循环中,得到相应的对齐目标:1)规范对齐:确保用户能够高效、可靠地与 AI 沟通目标;2)过程对齐:提供验证和可选控制 AI 执行过程的能力;3)评估支持:确保用户能够验证和理解 AI 的输出。我们还介绍了替代过程的概念,即 AI 实际过程的简化、分离且可控的表示;以及过程差异(Process Gulf)的概念,强调人类和 AI 过程之间的差异可能导致 AI 控制方面的挑战。为了说明该框架的价值,我们描述了商业和研究系统在每个对齐维度上的情况,并展示了提供交互对齐机制的界面如何带来不同且改善的用户体验。