Jan, 2024

机器语言模型中对齐和有用性之间的权衡

TL;DR语言模型对齐是 AI 安全的重要组成部分,通过增强期望行为和抑制非期望行为,使人类和语言模型之间进行安全交互。在这篇论文中,我们研究了对齐增加和模型有用性减少之间的权衡,并提出了一个理论框架,以在实证上证明其相关性。我们发现,当表示工程向量的范数线性增加时,模型的对齐线性增加,而模型的有用性则呈二次减少,这表明表示工程的使用是有效的。我们通过实验证实了我们的发现,并勾勒出表示工程在对齐中的有用性边界。