Jan, 2024

概念对齐

TL;DR在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。