Go-tuning：提高较小语言模型的零样本学习能力

Dec, 2022

Go-tuning：提高较小语言模型的零样本学习能力

Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language Models

Jingjing Xu, Qingxiu Dong, Hongyi Liu, Lei Li

TL;DR本文探讨如何在较小模型的规模下，通过几何引导的自监督学习方法进行任务感知的自监督数据调整，实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small（80M）能够达到 T5-XL（3B）的竞争零样本结果，并开发了一个多任务模型 mgo-T5（250M），达到九个数据集的 OPT（175B）的平均性能。

Abstract

With increasing scale, large language models demonstrate both quantitative improvement and new qualitative capabilities, especially as zero-shot learners, like GPT-3. However, these results rely heavily on delica

large language models zero-shot learners self-supervised learning go-tuning multi-task model

发现论文，激发创造

通过集合元调整数据集和提示，为零样本学习调整语言模型

该论文提出了元调谐（meta-tuning）方法，旨在直接针对零样本学习目标对预训练语言模型进行微调，应用于分类任务，并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明，相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型，元调整模型在新的任务上表现更好，同时我们认为，增加参数数量会进一步提升 AUC-ROC 分数。

Apr, 2021

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

多语言语言模型的少样本学习

本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Dec, 2021

单个 GPU 实现数据效率：小型语言模型转移方法探索

本文探讨了在小语言模型中，模型规模大小，多任务学习，指令调整，fine-tuning 和域内学习等对模型性能影响，其中通用 MTL 和域内 MTL 能够分别提升模型相对 31% 和 37.6% 的效果，并且与先前的研究结果不同，指令调整仅提供了小幅度的 2% 性能改进。

Oct, 2022

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Jun, 2024

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023