Oct, 2023

暗影对齐:篡改安全对齐语言模型的容易程度

TL;DR开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。