Feb, 2023

目标一致性:价值对齐问题的人类意识解释

TL;DRAI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式,并提出了一种交互式算法,用于确定用户的真正基础目标。