Superfiltering:快速指令调整的弱到强数据过滤
通过将自己作为过滤器,利用训练后的评分网络来衡量每个指令的难度,并选择最具挑战性的样本,自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果,并取得优于竞争基线的性能。
Feb, 2024
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
Feb, 2024
本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的 0.5% 来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升 2%。
May, 2023
我们提出了 LESS,这是一种优化感知且实际高效的算法,用于有效估计数据影响并执行用于指令数据选择的低秩梯度相似性搜索。实验表明,在多样的下游任务中,使用 LESS 选中的 5% 的数据进行训练通常优于全数据集的训练。此外,所选数据具有高度可迁移性:可以利用较小的模型为较大的模型以及来自不同家族的模型选择有用的数据。我们的定性分析表明,我们的方法超越了表面形式线索,能够识别出在预期的下游应用中体现必要推理技能的数据。
Feb, 2024
通过对小规模多样化的 fine-tune 样本进行研究,本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。
Nov, 2023
选择性反射微调是一种新型范式,通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力,自动优化现有的指示微调数据,从而生成高质量且与学生模型兼容的指示 - 回答对,提升巨型语言模型微调和自我改进的效率,实现卓越性能的巨型语言模型。
Feb, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
本文提出了 InstructMining 用于评估指令遵循数据的质量,并使用该方法选择高质量数据进行 Fei 调。研究结果表明,使用 InstructMining 所选择的数据集表现出更优的性能。
Jul, 2023