骆驼能走多远?探索在开放资源上指令调优的现状
本文探讨了指令调整对大型语言模型性能的影响,并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明,增加指令数据可改善某些任务的表现,但对于数学和代码等任务,增加数据规模的改善效果不明显。
Mar, 2023
本文利用GPT-4生成的instruction-following数据进行大型语言模型finetuning,发现相较于之前最先进模型生成的数据,52K的英文和中文instruction-following数据可以显着提高新任务的零-shot性能。同时我们公开了GPT-4生成的数据以及我们的代码库。
Apr, 2023
INSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
探索不依赖于封闭源模型生成高质量指令数据的替代方法,并通过整合有效的变体和两种新策略进一步提高其质量,我们的生成指令数据能够胜过依赖封闭源模型的Alpaca方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。
Aug, 2023
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
自从TULU [Wang et al., 2023b]的发布以来,用于指示调整的开放资源快速发展,从更好的基础模型到新的微调技术。我们测试并融入了一些这些进展到TULU中,从而产生了TULU 2,这是一套改进的TULU模型,用于推进将预训练语言模型适应到下游任务和用户偏好的理解和最佳实践。具体来说,我们发布了:(1)TULU-V2-mix,一组改进的高质量指示数据集;(2)TULU 2,针对V2混合数据集微调的LLAMA-2模型;(3)TULU 2+DPO,利用直接偏好优化(DPO)训练的TULU 2模型,包括迄今为止最大的DPO训练模型(TULU 2+DPO 70B);(4)CODE TULU 2,针对我们的V2混合数据集微调的CODE LLAMA模型,胜过CODE LLAMA及其指示调整变体CODE LLAMA-Instruct。我们从多个角度的评估结果表明,TULU 2套件在开放模型中实现了最先进的性能,并在多个基准测试中与GPT-3.5-turbo-0301的性能相匹配或超越。我们发布所有的检查点、数据、训练和评估代码,以促进将来在适应大型语言模型方面的开放努力。
Nov, 2023
通过实验证明,Instruction Modelling 能够提高语言模型的性能,特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下,对低资源场景中的语言模型进行指令调整提供了实用指南。
May, 2024
通过渐进对齐的假设,我们提出了一种新颖的分阶段指令微调(Phased IFT)方法,基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。
Jun, 2024