Sep, 2024

选择性自我复习:一种提高大语言模型泛化能力的微调方法

TL;DR本研究解决了大语言模型微调过程中由于过拟合导致的泛化能力下降的问题。提出的选择性自我复习(SSR)方法通过利用模型的正确响应来减少模型在微调阶段的专业化,从而在多个数据集上显示出更优的泛化能力和接近标准监督微调的性能。研究结果表明,与标准微调方法相比,SSR在多个基准测试中表现出显著更小的性能下降。