指导性调整的模型具有快速学习能力

May, 2023

指导性调整的模型具有快速学习能力

Instruction Tuned Models are Quick Learners

Himanshu Gupta, Saurabh Arjun Sawant, Swaroop Mishra, Mutsumi Nakamura, Arindam Mitra...

TL;DR本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

Abstract

instruction tuning of language models has demonstrated the ability to enhance model generalization to unseen tasks via in-context learning using a few examples. However, typical supervised learning still requires a plethora of downstream training data for finetuning. Often in real-worl

发现论文，激发创造

精调语言模型是零-shot学习器

通过对自然语言指令模板中的60个自然语言处理任务进行调整，我们将一个137B预训练语言模型调整为FLAN并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在20个任务上超越了175B GPT-3的零样本性能。

Sep, 2021

使用未标记数据学习指令，以实现零样本跨任务泛化

本文提出了Unlabeled Data Augmented Instruction Tuning (UDIT)算法，通过使用未标注的文本数据构建伪标注数据，以更好地利用指令来提高指令微调的性能，实验结果表明UDIT在不同场景下都具有较好的效果。

Oct, 2022

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的multitask-prompted fine-tuning方法进行指导调整的语言模型，仅针对单个任务进行专家模型的fine-tuning能够使模型在11个不同的未知数据集上以及13个BIG-bench基准测试数据集上平均准确率分别提高3.20%和1.29%。此外，分别训练每个专家模型而不是单个MT LM进行zero-shot推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

或许只需要0.5%的数据：低训练数据指令调优的初步探索

本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的0.5%来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升2%。

May, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用，并分析了影响IT结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了IT存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

Tuna: 基于大型语言模型的指令调整

通过概率排名和上下文排名的方法对已调整过的模型进行微调，最终生成更好回复的模型称为Tuna，能够优于强化学习基线模型，提高对各种任务的性能。

Oct, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源LLMs（如LLaMA-2 70B和Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予LLMs执行多个顺序指令的能力。通过探索Alpaca等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

使用指令损失进行指令调整

通过实验证明，Instruction Modelling 能够提高语言模型的性能，特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下，对低资源场景中的语言模型进行指令调整提供了实用指南。

May, 2024

大型语言模型的分阶段指导微调

通过渐进对齐的假设，我们提出了一种新颖的分阶段指令微调（Phased IFT）方法，基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。

Jun, 2024