从零开始的合成数据：通用指令调整用于语言模型

Feb, 2024

从零开始的合成数据：通用指令调整用于语言模型

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang...

TL;DR借助预先策划的人类知识和能力分类体系， GLAN 是一种适用于大型语言模型（LLM）的通用且可扩展的指令调整方法，它能纵向横向生成大规模的合成指令数据，覆盖人类知识和技能的完整领域。

Abstract

We introduce generalized instruction tuning (called glan), a general and scalable method for instruction tuning of large language models (

generalized instruction tuning large language models glan taxonomy of human knowledge instruction data

发现论文，激发创造

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

专家还是通才？特定 NLP 任务的指导调校

通过整合广泛覆盖的通用模型调优方式，本研究研究了在建立专用模型方面是否有助于提高性能，结果表明广泛覆盖的任务和有限的任务特定训练数据时，整合通用模型调优可以始终提高模型性能。

Oct, 2023

利用大卫对抗歌利亚：探索无需使用闭源模型的指导数据生成

探索不依赖于封闭源模型生成高质量指令数据的替代方法，并通过整合有效的变体和两种新策略进一步提高其质量，我们的生成指令数据能够胜过依赖封闭源模型的 Alpaca 方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。

Aug, 2023

视觉指导调整中基于人工标注任务的扩展

通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架，本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战，并在广泛的多模态评估基准中取得了最新的最佳性能。

Feb, 2024

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

人工课程指导的指令优化

应用结构化认知学习方法于现代大型语言模型的指令调优，通过提供高度结构化合成数据集，模仿人类教育的渐进和有组织性，可以显著提升语言模型在理解和响应复杂指令和任务方面的能力。

Oct, 2023

TeGit: 基于文本支撑任务设计的高质量指导调优数据生成

通过训练语言模型自动设计任务而收集高质量的教学适应数据的可扩展方法，自动生成任务指导、输入和输出，用于过滤噪音，并通过自动和手工评估实验来证明数据集的质量。

Sep, 2023

生成模型的自动评估与指令调优

基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。

Oct, 2023

中文开放指令通用程序员：初步发布

通过多种方法适应 4 个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约 20 万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023