GenQA：从少数提示生成数百万个指令

Jun, 2024

GenQA：从少数提示生成数百万个指令

GenQA: Generating Millions of Instructions from a Handful of Prompts

Jiuhai Chen, Rifaa Qadri, Yuxin Wen, Neel Jain, John Kirchenbauer...

TL;DR研究如何从单个提示生成大型指导数据集，使用较少的人工监督，使 LLMs 能够撰写多样化的指令示例，从简单的完成任务到复杂的多轮对话，并在知识密集型任务和对话评估中超过了 WizardLM 和 Ultrachat，在扩展性和可伸缩性方面超过了公共指导微调数据集。

Abstract

Most public instruction finetuning datasets are relatively small compared to the closed source datasets used to train industry models. To study questions about finetuning at scale, such as curricula and learning

public instruction finetuning datasets scale data generation process diverse sets of instruction examples finetuned model checkpoints

发现论文，激发创造

利用大卫对抗歌利亚：探索无需使用闭源模型的指导数据生成

探索不依赖于封闭源模型生成高质量指令数据的替代方法，并通过整合有效的变体和两种新策略进一步提高其质量，我们的生成指令数据能够胜过依赖封闭源模型的 Alpaca 方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。

Aug, 2023

指令采集：大型语言模型高质量指令数据选取

本文提出了 InstructMining 用于评估指令遵循数据的质量，并使用该方法选择高质量数据进行 Fei 调。研究结果表明，使用 InstructMining 所选择的数据集表现出更优的性能。

Jul, 2023

利用基于提示的技术来生成学校级问题的大型语言模型的力量

利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法，利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容，创建了一个名为 EduProbe 的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法，并使用预训练的大型语言模型进行了微调。通过自动评估，我们发现 T5（使用长提示）表现优于其他模型，但仍然低于人类基准。在人类评估标准下，TextDavinci-003 通常在各种提示设置下表现更好。即使在人类评估标准下，问题生成模型也大多低于人类基准。

Dec, 2023

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022

Genixer: 赋予多模态大型语言模型强大的数据生成能力

通过创新的数据生成方法，Genixer 可以为不同任务生成高质量的多模态指令调整数据，从而改进现有的大型语言模型，在图像字幕和视觉问答等任务中取得了最先进性能，并为跨领域的创新应用提供了可能。

Dec, 2023

WizardLM：赋能大型语言模型遵循复杂指令

本文介绍了一种使用大型语言模型（LLM）替代人类创建指令数据的方法，通过使用我们提出的 Evol-Instruct，从一个初始指令集开始，逐步将其重写为更复杂的指令，然后将生成的所有指令数据混合起来，以调整 LLaMA 模型，获得我们所称的 WizardLM 模型。人类评估证明，Evol-Instruct 出产的指令优于人工创建的指令，尤其是在高复杂度方面，WizardLM 模型的输出被认为比 OpenAI ChatGPT 的输出更好。尽管 WizardLM 在某些方面仍落后于 ChatGPT，但我们的研究表明，用人工智能生成的指令进行微调是提升大型语言模型的一个有前途的方向。

Apr, 2023

多样性和质量胜过数量：朝向多功能教学策划

本文介绍了一种高效且多功能的方法，用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据，然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明，即使只有有限数量的高质量指令数据，LLMs 在自然语言理解任务和代码生成任务中仍能保持稳定的性能，特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。

Dec, 2023

一个高效的数据创建流程，为大型语言模型生成高质量的金融指令数据

通过创造一个数据创建流程，将大规模语言模型 fine-tune 为金融相关任务，本研究使用 ChatGPT 在 AI 投资者和金融专家之间开展对话，并结合金融专家的反馈，生成了一个包含 103k 条对话的稳健指令调整数据集。通过采用 GPT-4 作为评判模型，在该数据集上进行了广泛实验，结果表明我们的方法在从 AI 模型中生成准确、相关和金融风格的回答方面取得了重大进展，为金融领域的应用提供了有力工具。

Jul, 2023

使用 GPT-4 进行指令调优

本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning，发现相较于之前最先进模型生成的数据，52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。

Apr, 2023

LIMIT: 指令调整跨评估范式中的越少越好

通过对小规模多样化的 fine-tune 样本进行研究，本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能，并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。

Nov, 2023