猜测指令!翻转学习使语言模型更强的零样本学习者
通过对自然语言指令模板中的 60 个自然语言处理任务进行调整,我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。
Sep, 2021
本研究旨在探讨对多任务教学学习(MTIL)应用元学习(meta-learning)是否可以进一步提高对未见任务的泛化能力。通过在自然语言理解(NLU)任务的大规模数据集上进行广泛实验,我们提出的方法在零 - shot 场景下显著改善了强基线,尤其是在测试任务严格为零 - shot 且对语言模型(LM)较难的情况下,元学习可提高教学的有效性,展示出 MTIL 的元学习在新任务中的潜力。
Oct, 2022
该论文提出了元调谐(meta-tuning)方法,旨在直接针对零样本学习目标对预训练语言模型进行微调,应用于分类任务,并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明,相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型,元调整模型在新的任务上表现更好,同时我们认为,增加参数数量会进一步提升 AUC-ROC 分数。
Apr, 2021
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
研究多语言应用中,如何应用元学习来提高模型性能,通过实验表明在标准的监督学习、零样本学习和少样本学习的跨语言自然语言理解任务中,元学习对于 15 种语言始终有效。
Mar, 2020
本文研究发现,相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型,仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外,分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处,包括避免负面任务转移,能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。
Feb, 2023
本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法,重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调,发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别,在零样本、少样本和 CoT 环境中的表现,以及在多项基准测试中的表现。
Oct, 2022
通过将广泛多样的监督数据集转换为易读提示集合的方式,使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现,该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能,并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。
Oct, 2021
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca)在 13 项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在 QA 任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型(如 PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021