指导多样性推动对未知任务的泛化

Feb, 2024

指导多样性推动对未知任务的泛化

Instruction Diversity Drives Generalization To Unseen Tasks

Dylan Zhang, Justin Wang, Francois Charton

TL;DR通过调整指令，大型语言模型（LLM）可以进行微调，实现真实世界任务执行和遵循人类指令；实现普遍使用的关键取决于模型学习更广泛的指令集而不仅仅是训练集上的指令。本文通过实验探究了指令多样性与模型普适性之间的权衡，发现多样性的指令集使模型具备普适性，并确保在训练集上非均匀分布指令的情况下保持鲁棒性。

Abstract

instruction tuning -- fine-tuning a large language model (LLM) on pairs of instructions and desired outcomes -- is an approach that enables pre-trained language models to perform real-world tasks and follow human

instruction tuning language models generalization diversity of instruction set robustness

发现论文，激发创造

从符号任务到代码生成：多样化产生更好的任务执行者

通过合适的指令调整，语言模型在指令 - 输出对的训练上能够更好地适应真实世界；研究发现，提供足够多样化的任务集合能够使其在训练分布之外的情况下具备泛化和鲁棒性，并且扩展调整指令集合能够提高代码生成的性能。

May, 2024

专家还是通才？特定 NLP 任务的指导调校

通过整合广泛覆盖的通用模型调优方式，本研究研究了在建立专用模型方面是否有助于提高性能，结果表明广泛覆盖的任务和有限的任务特定训练数据时，整合通用模型调优可以始终提高模型性能。

Oct, 2023

从任务说明中学习的鲁棒性

本研究探讨了新任务指令被恶意篡改、改写或来自不同书面表达程度时，基于预训练语言模型的监督系统的稳健性。

Dec, 2022

通过自然语言众包指导实现跨任务的推广

通过理解人类可读的指令来学习新任务的挑战一直是人工智能领域的难题，本文基于自然指令数据集通过使用生成式预训练语言模型对任务特定指令进行编码和输出生成，研究横向任务泛化并发现模型在使用指令时对于未见过的任务泛化更好，但与认为上限还存在显著改进空间。

Apr, 2021

交叉任务泛化的可微指令优化

本研究介绍了一种使用可学习的指令并基于双层优化优化它们的方法来提高指令调整的横向通用性的优化训练指令的方法，并证明与只使用手动创建的指令相比，学习的指令能够增强指令的多样性并提高横向通用性。

Jun, 2023

指导事项对于特定任务的指导调优中的简单而有效的任务选择方法

指导调优通过仅利用指导信息来识别相关任务，并另外学习元数据集的独特指导模板风格，提高任务选择准确性，从而改进了性能。

Apr, 2024

超自然说明：通过对超过 1600 个自然语言处理任务提出声明性说明来实现泛化

本文首先引入了 Super-NaturalInstructions, 一个包含 1616 个不同类型的 NLP 任务及其指令的跨任务基准，通过构建 Tk-Instruct 模型，能够在超过九个百分点的水平上优于目前现存的模型，并对不同的模型参数进行了进一步的分析以期实现更通用的 NLP 模型。

Apr, 2022

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

指令归纳：从少量样本到自然语言任务描述

该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务，通过自然语言生成指令，InstructGPT 的表现达到了人类的 65.7％，建议指令感应可能是一种学习范例。

May, 2022

G-DIG: 面向基于梯度的多样化和高质量指导数据选择的机器翻译

我们提出了一种基于梯度的新方法，自动选择高质量和多样化的机器翻译指令微调数据。通过分析个别训练示例在训练过程中对模型的影响，我们选择对模型有益影响的示例作为高质量数据，并使用影响函数和一个小的高质量参考数据集。此外，为了提高训练数据的多样性，我们通过对梯度进行聚类和重新抽样来最大化它们对模型的影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性，深入分析进一步验证了它们的有效性和推广性。

May, 2024