Instruct-SkillMix:一种强大的大型语言模型指令调优管道
使用Self-Instruct框架,可以将预训练模型与指令对齐,提高模型的指令遵循能力,无需过多人为指令数据,可用于finetuning,大大提高了模型的通用性。
Dec, 2022
本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的0.5%来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升2%。
May, 2023
大型语言模型的自主选择优化方法以及通过IFD指标识别差异以提高模型训练效率的研究对于提高LLM的效率和资源利用具有重要意义。
Aug, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
通过自动修订样本来增强指令数据集的质量,CoachLM训练自人工专家修订过的样本,并将数据集中高质量样本的比例从17.7%提高到78.9%。CoachLM通过平均29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的LLM数据管理系统中实现了高达20%的效率提升。
Nov, 2023
在对指令微调的研究中,最长指令的选择应该是任何研究的默认基线,因为经证实此方法能够在LLMs中提高性能,保持与对事实的知识进行测试的OpenLLM基准的竞争力。
Feb, 2024
选择性反射微调是一种新型范式,通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力,自动优化现有的指示微调数据,从而生成高质量且与学生模型兼容的指示-回答对,提升巨型语言模型微调和自我改进的效率,实现卓越性能的巨型语言模型。
Feb, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
本研究提出Instruct-SkillMix,这是一种自动化的方法,用于创建多样化、高质量的监督微调(SFT)数据。研究表明,使用该管道生成的数据能显著提高指令跟随的性能,能够在多个基准测试中与领先模型竞争,填补了以往开放指令调优数据集难以获取的空白。
Aug, 2024