当扩展与 LLM 微调相遇:数据、模型和微调方法的影响
在本研究中,我们针对有限资源的情况,通过预测微调性能并阐明其与扩展规律的自然连接,解决了在众多选项中选择最合适微调模型的挑战。我们发现,与预训练不同,微调的扩展曲线不仅包括众所周知的 “幂阶段”,还包括以前未观察到的 “前幂阶段”。为了克服现有扩展规律无法捕捉这种相变现象的理论和实证限制,我们引入了 “预学习数据大小” 概念到改进的扩展规律中,这大大提高了实验结果的拟合度。通过利用我们的规律,我们提出了一种新颖的 LLM 选择算法,用较少的资源消耗选择接近最优的模型,而其他方法可能提供负相关的选择。
Feb, 2024
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024
大型语言模型(LLMs)的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为,探讨了预训练数据的选择和大小对下游性能的影响,并提供了选择适当的预训练数据的实用见解。
Feb, 2024
通过借鉴 RL 的框架,引入了一种名为模拟微调(EFT)的技术,从而将预训练和微调的知识与技能解耦,并且通过扩大微调的规模来提高可帮助性,扩大预训练的规模来提高事实性,从而实现在测试时调整不同行为特征的方法,而无需额外训练。
Oct, 2023
通过使用适配器进行微调,我们可以改善大型语言模型在机器翻译方面的性能,并减少训练参数量,同时保持微调模式的效果,解决了少样本学习和过度生成的问题。
Oct, 2023
对细调预训练大型语言模型在下游任务中的忘记问题进行研究和量化,发现参数高效的细调策略仍然存在灾难性的忘记问题,特别是细调带有 Low-Rank Adapters(LoRA)的语言模型在性能和遗忘量之间存在强烈的线性关系,研究还给出了精确的缩放规律,显示遗忘量随着细调参数数量和更新步数呈现移位幂律的增长,同时考察了遗忘对知识、推理和 Llama 2 7B 聊天机器人中的安全保障的影响,研究表明无法通过提前停止或调整细调参数数量来避免遗忘问题,这为未来评估和开发减轻遗忘问题的细调方案开辟了重要的安全关键方向。
Jan, 2024
通过在平行文本上对大型语言模型 (LLM) 进行微调,新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统,然而,对于大规模多语言机器翻译,是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估,发现翻译微调即使对于零样本语言平均而言也会提高翻译质量,但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。
May, 2024