LIMIT: 指令调整跨评估范式中的越少越好

Nov, 2023

LIMIT: 指令调整跨评估范式中的越少越好

LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

Aditi Jha, Sam Havens, Jeremey Dohmann, Alex Trott, Jacob Portes

TL;DR通过对小规模多样化的 fine-tune 样本进行研究，本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能，并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。

Abstract

large language models are traditionally finetuned on large instruction datasets. However recent studies suggest that small, high-quality datasets can suffice for general purpose instruction following. This lack o

large language models finetuning instruction following nlp benchmarks model-based evaluation

发现论文，激发创造

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

或许只需要 0.5% 的数据：低训练数据指令调优的初步探索

本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的 0.5% 来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升 2%。

May, 2023

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022

微调、提示、上下文学习和指导微调：我们需要多少标记样本？

在本研究中，我们旨在调查专用模型需要多少标记样本才能达到优越性能，同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为，确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点，发现专用模型通常只需要少量样本（100-1000）就能达到或超越通用模型。与此同时，所需的标记数据量强烈依赖于任务复杂度和结果方差。

Feb, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

InstructionGPT-4：Fine-Tuning MiniGPT-4 的 200 指令范式

通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练，多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4，该模型在仅包括 200 个示例的小数据集上进行了微调，相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6％。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准，我们提出了一种简单而有效的数据选择器，用于自动识别和过滤低质量的视觉语言数据。采用这种方法，InstructionGPT-4 在各种评估（如视觉问答、GPT-4 偏好）上的表现优于原始的 MiniGPT-4。总的来说，我们的研究结果表明，较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。

Aug, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023