Sep, 2023

安全调校型 LLaMAs:提升遵循指令大型语言模型安全性的经验教训

TL;DR训练大型语言模型遵循指示能够使其在各种任务上表现更好,但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外,我们证明了在训练 LLaMA 等模型进行微调时,仅增加 3%的安全示例(几百个演示)可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而,我们发现一种夸大的安全性行为,即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。