指导性调整的模型具有快速学习能力
通过对自然语言指令模板中的 60 个自然语言处理任务进行调整,我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。
Sep, 2021
本研究提出了 MultiInstruct,这是第一个多模态指令调优基准数据集,旨在设计多个特定的任务和多个专家编写的指令,使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能,并且探索了一个新的评估指标:敏感性。
Dec, 2022
本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的 0.5% 来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升 2%。
May, 2023
本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法,重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调,发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别,在零样本、少样本和 CoT 环境中的表现,以及在多项基准测试中的表现。
Oct, 2022
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
Feb, 2024
本文分析了模型在指令调优过程中如何利用指令,并对比了模型在不同指令下的表现。结果显示,指令调优的表现提升可以来自学习表面模式,例如识别输出格式和猜测。因此,本研究提出了迫切需要更加可靠的指令调优方法和评估。
May, 2023
在这项研究中,我们评估了 10 个开源指导式 LLMs 在四个代表性的代码理解和生成任务上的表现,并得出了以下主要发现:首先,在零样本设置下,指导式 LLMs 在代码理解和生成任务上非常有竞争力,有时甚至比特定于每个下游任务进行微调的小型 SOTA 模型表现更好。我们还发现,对于与代码相关的任务,并非总是越大的指导式 LLMs 表现更好。其次,在少样本设置下,我们发现添加演示示例可以大大帮助指导式 LLMs 在大多数代码理解和生成任务中表现得更好;然而,这些例子有时会导致不稳定甚至更差的表现。此外,我们发现广泛使用的基于 BM25 的选样策略在生成问题上明显优于基本随机选样或固定选样。第三,在微调设置下,我们发现与零样本 / 一样本的表现相比,微调可以进一步提高模型在下游代码理解和生成任务中的性能。此外,在在相同下游任务数据集上进行微调后,指导式 LLMs 的性能优于小型 SOTA 模型和未进行指导微调的相似规模 LLMs。根据我们的发现,我们进一步提出了有关模型和使用建议、性能和成本的权衡以及未来方向的实用影响。
Aug, 2023