专家还是通才？特定 NLP 任务的指导调校

EMNLPOct, 2023

专家还是通才？特定 NLP 任务的指导调校

Specialist or Generalist? Instruction Tuning for Specific NLP Tasks

Chufan Shi, Yixuan Su, Cheng Yang, Yujiu Yang, Deng Cai

TL;DR通过整合广泛覆盖的通用模型调优方式，本研究研究了在建立专用模型方面是否有助于提高性能，结果表明广泛覆盖的任务和有限的任务特定训练数据时，整合通用模型调优可以始终提高模型性能。

Abstract

The potential of large language models (LLMs) to simultaneously perform a wide range of natural language processing (NLP) tasks has been the subject of extensive research. Although instruction tuning has proven t

large language models instruction tuning generalist models specialist models performance

发现论文，激发创造

或许只需要 0.5% 的数据：低训练数据指令调优的初步探索

本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的 0.5% 来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升 2%。

May, 2023

探索生物医学语言处理中指令调整的有效性

利用指令调整（instruction tuning）技术，对两个规模庞大的通用语言模型进行研究，以期在生物医学自然语言处理任务上取得类似于 BioBERT 和 BioClinicalBERT 等特定编码器模型的结果，并提供了相应的代码、模型和基于指令的数据集。

Dec, 2023

中文开放指令通用程序员：初步发布

通过多种方法适应 4 个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约 20 万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023

在 LLMs 中平衡专业和通用技能：现代调谐和数据策略的影响

介绍了用于微调和评估大型语言模型（LLMs）用于专门的货币化任务的多方面方法论，目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分：1）在微调过程中精心混合领域内和通用数据，以实现一般能力和专业能力之间的最佳平衡；2）设计全面的评估框架，包含 45 个问题，旨在评估在功能相关维度（如可靠性、一致性和商业影响）上的表现；3）分析模型大小和持续训练对度量指标的影响，以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果，旨在为企业和研究人员提供行动洞察，以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架，其中包括 45 个量身定制的问题及其相应的评分指南，以促进 LLMs 在专门任务上的透明度与合作。

Oct, 2023

从零开始的合成数据：通用指令调整用于语言模型

借助预先策划的人类知识和能力分类体系， GLAN 是一种适用于大型语言模型（LLM）的通用且可扩展的指令调整方法，它能纵向横向生成大规模的合成指令数据，覆盖人类知识和技能的完整领域。

Feb, 2024

指导多样性推动对未知任务的泛化

通过调整指令，大型语言模型（LLM）可以进行微调，实现真实世界任务执行和遵循人类指令；实现普遍使用的关键取决于模型学习更广泛的指令集而不仅仅是训练集上的指令。本文通过实验探究了指令多样性与模型普适性之间的权衡，发现多样性的指令集使模型具备普适性，并确保在训练集上非均匀分布指令的情况下保持鲁棒性。

Feb, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023