零-shot泛化哪种语言模型架构和预训练目标最佳？

Apr, 2022

零-shot泛化哪种语言模型架构和预训练目标最佳？

What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

Thomas Wang, Adam Roberts, Daniel Hesslow, Teven Le Scao, Hyung Won Chung...

TL;DR通过大规模模型比较和实验验证，本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中，部分结构和预训练目标优于其他模型，这为模型架构和目标选择提供了指导。同时，本文研究了预训练模型跨结构和目标的迁移，并提供源代码和检查点。

Abstract

Large pretrained Transformer language models have been shown to exhibit zero-shot generalization, i.e. they can perform a wide variety of tasks that they were not explicitly trained on. However, the architectures and pr

发现论文，激发创造

精调语言模型是零-shot学习器

通过对自然语言指令模板中的60个自然语言处理任务进行调整，我们将一个137B预训练语言模型调整为FLAN并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在20个任务上超越了175B GPT-3的零样本性能。

Sep, 2021

多任务提示训练实现零样例任务泛化

通过将广泛多样的监督数据集转换为易读提示集合的方式，使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零-shot 表现，该方法能够在多个标准数据集上表现出比同类模型大多数情况下强16倍的性能，并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强6倍的性能。

Oct, 2021

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

匹配脚本，适应多语: 分析多语言预训练对跨语言可迁移性的影响

本研究旨在探讨预训练语言模型在不同数量、相关性条件下的零样本学习能力，并发现通过模型适应，增加预训练语言数量能够提高语言模型的性能。

Mar, 2022

预训练神经网络剪枝的对齐权重正则化器

本论文研究了迭代剪枝在零样本测试性能上的影响，特别是对跨语言模型的影响，提出了两种权重正则化方法以缓解剪枝引起的跨语言性畸变，并实现了良好的性能表现。同时，这也是关注跨语言语言模型压缩的首个研究。

Apr, 2022

BERT 之后：其他木偶对语言的理解

利用oLMpics基准和心理语言学探测数据集，我们对包括T5、BART和ALBERT在内的 29个模型进行了多样化的分析。结果表明，这些模型都无法以零样本的方式解决组成性问题，并且全局模型决策也不能预测模型的语言能力。

May, 2022

语言模型是通用接口

本文提出了使用语言模型作为各种基础模型的通用接口，弥合语言和其他模态的差异性，同时继承了语境训练和生成以及双向编码器的优点，实现了上下文学习、指导跟随等多种能力。实验验证表明，在各种语言和视觉语言基准测试中，我们的模型在微调、零-shot通用性和少-shot学习方面表现优异。

Jun, 2022

模型生成的预训练信号改进了文本-文本转换器的零-shot 泛化能力

本文探讨了模型生成信号在改善零样本泛化文本到文本转换器（如T5）中的效果。我们研究了使用辅助模型预训练T5的各种设计，以构造更具挑战性的标记替换作为主要模型的去噪前缀。基于这些研究，我们开发了一个新模型METRO-T0，并改进了ELECTRA-Style的预训练策略，并在多种NLP任务上进行了提示微调。METRO-T0在提示的NLP基准测试中胜过所有类似大小的基线，例如T0 Eval和MMLU，并仅使用其8％的参数即可与最先进的T0-11B模型相媲美。我们对模型的神经激活和参数敏感性的分析表明，METRO-T0的有效性源于更平衡的参数贡献和更好的利用它们的能力。

May, 2023

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

充分利用您的模型：微调和应用预训练变换器的方法

本研究解决了微调预训练变换器模型效率与功能的不足，提出了两种新微调方法。其中一种通过引入递归机制提升变换器解码器的效率，另一种则使得掩蔽语言模型可用于非自回归序列到序列变换器的初始化，扩展其生成应用。研究显示，新技术可在不额外微调的情况下改善变换器解码器的预测质量，具有重要的实践价值。

Aug, 2024