FANNO：利用开源大型语言模型增强高质量指令数据

Aug, 2024

FANNO：利用开源大型语言模型增强高质量指令数据

FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only

He Zhu, Junyou Su, Tianle Lun, Yicheng Tao, Wenjia Zhang...

TL;DR该研究解决了注释指令数据集的高昂成本和劳动力密集的问题。FANNO是一种全自动的开源框架，通过文档预筛选、指令生成和响应生成的结构化过程，高效地生成多样化和高质量的数据集。实验结果表明，FANNO生成的数据在多样性和复杂性方面可与人工注释的数据集媲美，具有重要的潜在影响。

Abstract

Instruction Fine-tuning stands as a crucial advancement in leveraging Large Language Models (LLMs) for enhanced task performance. However, the annotation of instruction datasets has traditionally been expensive a

发现论文，激发创造

利用大卫对抗歌利亚：探索无需使用闭源模型的指导数据生成

探索不依赖于封闭源模型生成高质量指令数据的替代方法，并通过整合有效的变体和两种新策略进一步提高其质量，我们的生成指令数据能够胜过依赖封闭源模型的Alpaca方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。

Aug, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

自主演化多样化数据采样用于高效指导调优

通过引入自我演变机制DiverseEvol，我们提出了一种标签高效的指令调整方法，该方法允许模型自己主动采样同样或更有效的子集来改善自身性能，而无需人类干预或更先进的LLMs。在选择子集时，我们的数据采样技术的关键在于增强所选子集的多样性，使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了DiverseEvol的有效性。我们的模型在原始数据集的不到8%的训练基础上，与在完整数据上进行微调相比，性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此https URL公开获取。

Nov, 2023

开源LLM指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM训练自人工专家修订过的样本，并将数据集中高质量样本的比例从17.7％提高到78.9％。CoachLM通过平均29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的LLM数据管理系统中实现了高达20％的效率提升。

Nov, 2023

多样性和质量胜过数量：朝向多功能教学策划

本文介绍了一种高效且多功能的方法，用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据，然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明，即使只有有限数量的高质量指令数据，LLMs在自然语言理解任务和代码生成任务中仍能保持稳定的性能，特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。

Dec, 2023

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于GPT-4的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的GPT-4自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于Japanese-Alpaca。

Mar, 2024

CodecLM: 用定制的合成数据对齐语言模型

通过使用编码-解码原理，我们引入了CodecLM，这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中，我们将种子指令转化为元数据，然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本，经过在四个开放领域指令遵循基准测试上的大量实验证明，CodecLM相对于当前技术水平具有显著的效果。

Apr, 2024

MAmmoTH2：网络中的指令扩展

我们提出了一种新的方法，通过从预训练的网络语料库中高效地收集1000万条自然存在的指导数据来增强大型语言模型(LLMs)的推理能力，从而显著提高了模型在推理基准测试中的性能，并在多个推理和聊天机器人基准测试中获得了最先进的性能。

May, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

REInstruct：从无标签语料库构建指令数据

本研究解决了为大型语言模型手动标注指令数据的困难和高成本问题。提出了REInstruct方法，通过从无标签语料库中自动构建指令数据，并采用重写方法提升数据质量。研究表明，使用REInstruct生成的指令数据在性能上超过了现有的其他开放源代码方法，具有广泛的应用潜力。

Aug, 2024