Oct, 2023
微调对齐语言模型牺牲了安全性,即使用户并无此意!
Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To!
TL;DR通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。