交叉任务泛化的可微指令优化
通过调整指令,大型语言模型(LLM)可以进行微调,实现真实世界任务执行和遵循人类指令;实现普遍使用的关键取决于模型学习更广泛的指令集而不仅仅是训练集上的指令。本文通过实验探究了指令多样性与模型普适性之间的权衡,发现多样性的指令集使模型具备普适性,并确保在训练集上非均匀分布指令的情况下保持鲁棒性。
Feb, 2024
通过合适的指令调整,语言模型在指令 - 输出对的训练上能够更好地适应真实世界;研究发现,提供足够多样化的任务集合能够使其在训练分布之外的情况下具备泛化和鲁棒性,并且扩展调整指令集合能够提高代码生成的性能。
May, 2024
研究通过逐步指南调整的方式,可以帮助语言模型完成指定任务,提高跨任务泛化能力。自动获得的逐步指南,结合原始指南对语言模型进行调整,可以为完成目标任务提供详细和具体的步骤。研究发现,高质量的逐步指南可以提高不同模型大小之间跨任务的泛化能力,并且步骤的顺序对此具有重要影响。
May, 2023
通过整合广泛覆盖的通用模型调优方式,本研究研究了在建立专用模型方面是否有助于提高性能,结果表明广泛覆盖的任务和有限的任务特定训练数据时,整合通用模型调优可以始终提高模型性能。
Oct, 2023
我们提出了一种名为 InstOptima 的新方法,将指导生成作为一种进化多目标优化问题,并借助大型语言模型模拟指导操作符,通过引入一个目标引导机制来改进生成指导的质量,实验证明了改进的微调性能和生成一系列高质量指导的多样性。
Oct, 2023
我们提出了一种基于梯度的新方法,自动选择高质量和多样化的机器翻译指令微调数据。通过分析个别训练示例在训练过程中对模型的影响,我们选择对模型有益影响的示例作为高质量数据,并使用影响函数和一个小的高质量参考数据集。此外,为了提高训练数据的多样性,我们通过对梯度进行聚类和重新抽样来最大化它们对模型的影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性,深入分析进一步验证了它们的有效性和推广性。
May, 2024
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
通过多种方法适应 4 个子任务的内在特征,我们提出了一个项目来创建中文指令数据集,收集了约 20 万个中文指令调整样本,并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。
Apr, 2023