Jun, 2024

语言模型抗拒对准

TL;DR本文研究针对大型语言模型的对齐微调对模型的影响,并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练,可能是数量级上的差距,从而导致模型性能迅速下降并最终恢复到预训练阶段的分布,同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性,从而克服大型语言模型对对齐微调的抵抗。