REInstruct：从无标签语料库构建指令数据

Aug, 2024

REInstruct：从无标签语料库构建指令数据

REInstruct: Building Instruction Data from Unlabeled Corpus

Shu Chen, Xinyan Guan, Yaojie Lu, Hongyu Lin, Xianpei Han...

TL;DR本研究解决了为大型语言模型手动标注指令数据的困难和高成本问题。提出了REInstruct方法，通过从无标签语料库中自动构建指令数据，并采用重写方法提升数据质量。研究表明，使用REInstruct生成的指令数据在性能上超过了现有的其他开放源代码方法，具有广泛的应用潜力。

Abstract

Manually annotating Instruction Data for large Language Models is difficult, costly, and hard to scale. Meanwhile, current automatic annotation methods typically rely on distilling synthetic data from proprietary

发现论文，激发创造

使用未标记数据学习指令，以实现零样本跨任务泛化

本文提出了Unlabeled Data Augmented Instruction Tuning (UDIT)算法，通过使用未标注的文本数据构建伪标注数据，以更好地利用指令来提高指令微调的性能，实验结果表明UDIT在不同场景下都具有较好的效果。

Oct, 2022

不自然的指示：使用（几乎）无人工操作的方式调整语言模型

通过对大量不同类别的创造性指示进行收集，实现了使用深度学习语言模型（pretrained language models）从inference-time自然语言指示中执行新任务的可能性并验证了其用于数据集扩展和多样化的价值。

Dec, 2022

Dynosaur:一种动态生长范式用于指令调整数据策划

本文提出了 Dynosaur，一种基于现有 NLP 数据集元数据的动态增长范式，用于构建 LLM 的指令调整数据，同时研究将连续学习作为指令调整的一种新方法，并演示了在任务表示选择方面进行任务重演的有效性。

May, 2023

指令采集：大型语言模型高质量指令数据选取

本文提出了InstructMining用于评估指令遵循数据的质量，并使用该方法选择高质量数据进行Fei调。研究结果表明，使用InstructMining所选择的数据集表现出更优的性能。

Jul, 2023

利用大卫对抗歌利亚：探索无需使用闭源模型的指导数据生成

探索不依赖于封闭源模型生成高质量指令数据的替代方法，并通过整合有效的变体和两种新策略进一步提高其质量，我们的生成指令数据能够胜过依赖封闭源模型的Alpaca方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。

Aug, 2023

CodecLM: 用定制的合成数据对齐语言模型

通过使用编码-解码原理，我们引入了CodecLM，这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中，我们将种子指令转化为元数据，然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本，经过在四个开放领域指令遵循基准测试上的大量实验证明，CodecLM相对于当前技术水平具有显著的效果。

Apr, 2024

MAmmoTH2：网络中的指令扩展

我们提出了一种新的方法，通过从预训练的网络语料库中高效地收集1000万条自然存在的指导数据来增强大型语言模型(LLMs)的推理能力，从而显著提高了模型在推理基准测试中的性能，并在多个推理和聊天机器人基准测试中获得了最先进的性能。

May, 2024

FANNO：利用开源大型语言模型增强高质量指令数据

该研究解决了注释指令数据集的高昂成本和劳动力密集的问题。FANNO是一种全自动的开源框架，通过文档预筛选、指令生成和响应生成的结构化过程，高效地生成多样化和高质量的数据集。实验结果表明，FANNO生成的数据在多样性和复杂性方面可与人工注释的数据集媲美，具有重要的潜在影响。

Aug, 2024

更好的指令前后翻译对齐

本研究针对大语言模型（LLMs）对齐中存在的合成数据质量不足的问题，提出了一种新的方法：指令前后翻译。通过生成和优化基于网页文献的合成指令，研究发现该方法在多个评估标准上优于传统合成数据，表明其在提高指令质量和多样性方面具有显著潜力。

Aug, 2024

更好的指令双向翻译对齐

本研究针对大型语言模型（LLMs）对齐中的合成数据质量问题，提出了指令双向翻译的新方法。通过利用反向翻译和质量重写，生成的指令和响应在评估中表现优于多种传统数据集，显示出合成数据在多样性和复杂性上的优势。这一方法结合了网络信息的多样性和高质量响应的必要性，极大提升了模型对齐的效果。

Aug, 2024