Feb, 2024

模拟非对齐:大规模语言模型的安全对齐可能适得其反!

TL;DR通过推出一种推理时攻击框架,研究表明安全对齐也可能在对抗性操作下无意中促进有害结果,实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率,从而强调重评估安全对齐后的开源语言模型的重要性。