分散 - 合并:通过减少对齐税来推动指令调优的极限
我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明,该方法在领域内外场景均显著优于指导调整方法,并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。
May, 2024
本文提出了一种基于联邦学习的指令调整方法,名为 FedIT,它可以利用客户端上存储的异构和多样化指令,保护隐私和确保数据安全,提高了 LLM 的性能,同时在 GitHub 上开发了名为 Shepherd 的基础框架,提供了探索异构指令下的联邦微调 LLM 的支持。
May, 2023
利用新的并行训练范式,这篇论文介绍了 PAFT,它独立对大语言模型进行 SFT 和偏好对齐,并通过参数融合将它们合并成一个用于下游应用的最终模型,提高了模型的性能。
Jun, 2024
使用自我蒸馏微调(SDFT)方法,本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距,解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战,并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时,在下游任务上实现了与传统微调相当或更优的性能,并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。
Feb, 2024
利用数据的可学习性作为选择模型数据的主要标准,研究通过引入损失为基础的 SFT 数据选择方法(LoBaSS)来确保数据选择与模型能力的匹配,从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下,超过全数据微调方法,在使用 16.7% 的数据时,能够协调模型在对话和数学领域的能力,验证其有效性和适应性。
Oct, 2023
通过渐进对齐的假设,我们提出了一种新颖的分阶段指令微调(Phased IFT)方法,基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。
Jun, 2024
我们提出了一个基于先验的端到端三阶段监督微调模型,它证明比传统的微调方法更有竞争力。我们的模型通过一个采样器和重叠估计神经网络来稳固三类数据分类,并将预处理数据集分三批注入预训练模型进行 LORA 微调。然后,我们设计了一个先验模块耦合系统提示、向量数据库和抽象语法树任务分割。最后,对基于先验的微调模型应用压缩方法和正则化约束,并在输出端进行文本过滤以获得逐步增量式的引导结果。我们的模型是首个真正具备丰富教育知识、逐步增量引导输出和答案保密等特征的导师角色研究的努力。广泛的实验表明,与开源模型相比,我们的模型在编码能力方面也达到了最先进水平,在 HumanEval (@pass 1) 基准测试中取得了令人印象深刻的 75.10%。此外,我们的模型具有强大的对话能力,13B 量化版本在 MMLU、C-Eval 和 AGIEval (5 shot) 对话评估基准测试中分别达到了 56.34、50.60 和 45.27 的分数。
Mar, 2024
本研究提出了 SciTune 框架,通过调整 Large Language Models,与科学学科,概念和目标相符合,提高 LLMs 的理解科学多模态指令的能力,并通过 ScienceQA 基准测试表明,与仅使用机器生成数据调整的模型相比,LLaMA-SciTune 在各个子类别上均优于人类表现。
Jul, 2023
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024