精调语言模型是零 - shot 学习器 | BriefGPT

Sep, 2021

精调语言模型是零 - shot 学习器

Finetuned Language Models Are Zero-Shot Learners

Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu...

TL;DR通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Abstract

This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning --

zero-shot learning language models instruction tuning nlp tasks flan

发现论文，激发创造

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

猜测指令！翻转学习使语言模型更强的零样本学习者

本文提出了一种新的元训练方法 —— 反转学习，创新性地从输入样例和标签预测任务指令。它可以显著提高语言模型的迁移学习能力，特别是对于未见标签的任务，平均 F1 值可提高 20%。

Oct, 2022

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

May, 2023

借助微调的语言模型和提示工程增强零样本加密货币情绪分析

区块链技术在金融领域产生了革命性影响，通过分散化和透明性，加密货币得到了广泛采用。本文旨在增强加密货币领域情感分析的准确性，研究了对大型语言模型的微调技术。实验结果表明，微调后的模型平均零射击性能提升了 40%，彰显了优化预训练语言模型效率的潜力。此外，本文还探讨了指令微调对不同规模模型的影响，发现较大规模的模型从指令微调中受益，实现了最高平均准确率为 75.16%。相比之下，较小规模的模型由于完全利用模型容量可能出现降低泛化能力的情况。通过实验调查，本文呈现了指令模型在不同指令微调设置下的响应情况，实验结果显示，对于简短简单的指令，模型平均准确率达到了 72.38%。相比之下，针对长且复杂指令，模型的准确率提高了 12%，有效突显了指令特征在提升模型性能方面的重要性。

Oct, 2023

通过集合元调整数据集和提示，为零样本学习调整语言模型

该论文提出了元调谐（meta-tuning）方法，旨在直接针对零样本学习目标对预训练语言模型进行微调，应用于分类任务，并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明，相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型，元调整模型在新的任务上表现更好，同时我们认为，增加参数数量会进一步提升 AUC-ROC 分数。

Apr, 2021