Instruct-SkillMix：一种强大的大型语言模型指令调优管道

Aug, 2024

Instruct-SkillMix：一种强大的大型语言模型指令调优管道

Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora

TL;DR本研究解决了高质量SFT数据生成方面的不足，提出了一种自动化的Instruct-SkillMix管道，通过两个阶段利用强大的大型语言模型提取技能并生成数据。研究表明，该方法在指令跟随基准测试上显著提升了性能，并具有灵活适应其他应用场景的潜力。

Abstract

We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill Extraction

发现论文，激发创造

自我指导: 用自动生成的指令对齐语言模型

使用Self-Instruct框架，可以将预训练模型与指令对齐，提高模型的指令遵循能力，无需过多人为指令数据，可用于finetuning，大大提高了模型的通用性。

Dec, 2022

或许只需要0.5%的数据：低训练数据指令调优的初步探索

本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的0.5%来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升2%。

May, 2023

从数量到质量：通过自导数据选择提高LLM性能以进行指令调整

大型语言模型的自主选择优化方法以及通过IFD指标识别差异以提高模型训练效率的研究对于提高LLM的效率和资源利用具有重要意义。

Aug, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

开源LLM指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM训练自人工专家修订过的样本，并将数据集中高质量样本的比例从17.7％提高到78.9％。CoachLM通过平均29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的LLM数据管理系统中实现了高达20％的效率提升。

Nov, 2023

对齐更长时间：一种简单但难以打败的教学微调基准

在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在LLMs中提高性能，保持与对事实的知识进行测试的OpenLLM基准的竞争力。

Feb, 2024

选择性反思调整: 针对LLM指导调整的学生选取数据循环

选择性反射微调是一种新型范式，通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力，自动优化现有的指示微调数据，从而生成高质量且与学生模型兼容的指示-回答对，提升巨型语言模型微调和自我改进的效率，实现卓越性能的巨型语言模型。

Feb, 2024

SMART：指令调优的子模数据混合策略

SMART是一种基于子模函数的数据混合策略，用于在有限的预算情况下改进指令调优，通过选择代表性子集中的任务来分配预算，以实现更好的性能。

Mar, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

Instruct-SkillMix：一种强大的大规模语言模型指令调优管道

本研究提出Instruct-SkillMix，这是一种自动化的方法，用于创建多样化、高质量的监督微调（SFT）数据。研究表明，使用该管道生成的数据能显著提高指令跟随的性能，能够在多个基准测试中与领先模型竞争，填补了以往开放指令调优数据集难以获取的空白。

Aug, 2024