渐进学习:利用部分掌握知识优化大型语言模型的微调
通过借鉴RL的框架,引入了一种名为模拟微调(EFT)的技术,从而将预训练和微调的知识与技能解耦,并且通过扩大微调的规模来提高可帮助性,扩大预训练的规模来提高事实性,从而实现在测试时调整不同行为特征的方法,而无需额外训练。
Oct, 2023
比较fine-tuning和retrieval-augmented generation (RAG)两种方法,发现RAG在不同主题的知识密集型任务中始终优于fine-tuning,并且LLMs在fine-tuning中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
我们的研究探索了在精调过程中地面真实响应风格的影响,发现将地面真实响应风格与大语言模型固有的风格匹配能产生更好的学习效果。基于这个发现,我们开发了一种方法,通过最小化改变大语言模型的现有响应来纠正错误,并将这些调整后的响应作为训练目标。这种技术能够实现与模型的本地响应风格相一致的精确修正,保护模型的核心能力,从而避免过拟合。我们的发现表明,这种方法不仅提高了大语言模型在特定任务上的准确性,而且关键地保持了其原始的能力和有效性。
Feb, 2024
通过在文档训练之前进行问答配对,提出了一种称为 PIT(pre-instruction-tuning)的方法,能够显著提高大型语言模型从新文档吸收知识的能力,比传统的指令调整方法的性能提高了17.8%。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)和它们经过微调后的变体之间的差异,尤其关注微调对LLMs内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验,研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为,并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究,旨在为LLMs的微调实践做出有价值的贡献。
Mar, 2024
大型语言模型在通过有监督微调对齐时,会遇到并未通过预训练获得的新的事实信息,从而可能教会模型产生虚假的事实错误响应,导致模型训练生成不基于其现有知识的事实。本研究旨在研究这种新知识暴露对经过微调的模型利用其现有知识的影响。我们设计了一个可控制的实验,并集中于封闭式问答,通过在微调示例中引入新知识的比例来变化。我们证明大型语言模型在微调过程中较难获得新的事实知识,因为引入新知识的微调示例要比与模型现有知识相一致的示例学习速度慢得多。然而,我们还发现随着新知识的学习,它们线性增加了模型产生虚假响应的倾向。综上所述,我们的结果强调通过微调引入新的事实知识的风险,并支持大型语言模型主要通过预训练获取事实知识,而微调则教会它们更有效地使用。
May, 2024
本研究探讨了大型语言模型的预训练与微调之间的关系,识别出微调过程中的潜在问题。研究发现,持续的预训练能够增强模型在微调后展示的潜力,且通过额外微调可以显著提升模型对未展示能力的数据集的表现。此外,模型在监督微调后可能会遗忘之前掌握的领域知识,且对评估提示的敏感性较高,但通过增加预训练可以缓解这一敏感性。
Aug, 2024
本研究探讨了大型语言模型预训练和微调之间的关系,填补了该领域的知识空白。通过微调多个中间预训练模型检查点,发现持续预训练以潜在的方式提升模型性能,并且额外的微调对未展示能力的数据集影响显著。此研究的发现表明微调可能导致知识遗忘,但额外的预训练可以缓解模型对评估提示的敏感性。
Aug, 2024
本研究针对大规模语言模型在问答任务中的微调策略这一尚未充分探索的问题,提出了一种基于预训练模型记忆知识程度对监督微调数据进行分类的方法。研究发现,在微调阶段仅需60个数据点即可激活预训练中编码的知识,且不同记忆水平的数据对模型性能有显著影响,具体最佳数据集因模型而异。
Sep, 2024
本研究解决了大型语言模型(LLMs)在学习新语言时,难以保持其已掌握语言(通常是英语)的性能的问题。研究提出了一个两阶段的持续微调过程,结果表明,第二阶段任务与第一阶段任务的相似性影响模型的适应性。同时,针对性能下降,分析了两种持续微调方法的变体,证实其在提升语言能力的同时保持任务性能的有效性。
Oct, 2024