Jun, 2024
朝双向人工智能对齐迈进:澄清、框架和未来发展的系统综述
Towards Bidirectional Human-AI Alignment: A Systematic Review for
Clarifications, Framework, and Future Directions
TL;DR近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。