Feb, 2024

精调后保持 LLMs 一致性:提示模板的关键作用

TL;DR本文研究了如何减轻模型由于微调引起的安全问题,通过对几个聊天模型进行广泛实验,发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要,并提出了 “纯微调,安全测试”(PTST)原则,即在没有安全提示的情况下微调模型,但在测试时使用它。在 GSM8K,ChatDoctor 和 OpenOrca 上进行的微调实验表明,PTST 显著减少了不安全行为的发生,甚至在某些情况下几乎消除了它们。