Oct, 2023

概念对齐作为价值对齐的前提条件

TL;DR人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外,本研究通过人类参与者的实验结果表明,人类在意图行为时会考虑代理使用的概念,符合我们的联合推理模型。