Zemi: 从多个任务中学习零样本半参数语言模型

Oct, 2022

Zemi: 从多个任务中学习零样本半参数语言模型

Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks

Zhenhailong Wang, Xiaoman Pan, Dian Yu, Dong Yu, Jianshu Chen...

TL;DR这篇论文提出了一种名为 Zemi 的基于半参数模型的语言模型，采用了一种新型的半参数多任务提示训练范式，并引入了增强融合模块，显著提高了零点泛化能力，且模型规模比已有模型小 3.9 倍。

Abstract

Although large language models have achieved impressive zero-shot ability, the huge model size generally incurs high cost. Recently, semi-parametric language models, which augment a smaller language model with an external retriever, have demonstrated promising language modeling capabilities. However, it remains unclear whether such →

semi-parametric language models zero-shot performance multitask prompted training paradigm augmentation fusion module zemi

发现论文，激发创造

伪对数似然在自然语言评分中的应用

本文探讨了使用零射击方式相对于微调方法的优势，并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且，作者认为此种方法的健壮性应从表征组合性的角度进行解释。

Jan, 2022

使用大型语言模型的零样本任务导向语义解析

本研究探讨了如何利用大型语言模型进行零 - shot 语义解析的方法，提出了一种名为 ZEROTOP 的采用问答 (QA) 问题分解语义解析问题的解决方案，并通过精调语言模型在 QA 数据集上的表现，实现了对 MTOP 数据集中约 16% 的短语进行无标注数据的语义解析。

Dec, 2022

多任务学习用于多语言模型零 - shot 性能预测

本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测，并将其视为多任务学习问题，从而建立准确的预测模型。我们的方法还同时进行了特征选择，识别出对多个任务的零样本表现具有影响的共同特征。

May, 2022

知识上下文：朝着具有知识的半参数语言模型

本论文提出了一种新颖的半参数语言模型结构，Knowledge-in-Context (KiC)，通过一个知识丰富的外部存储器来增强参数化文本至文本语言模型，并且采用了一种实例自适应的知识选择器来进行训练，实验结果表明，KiC 比大规模的全参数语言模型在 40 多项不同任务上表现更出色。

Oct, 2022

零样本分词器迁移

语言模型与分词器（tokenizer）的绑定限制了其灵活性，本文提出了零 - shot 分词器迁移问题，并通过训练超网络解决了初始化嵌入向量的挑战，进一步缩短了分词序列，从而实现了对语言模型与其分词器的分离。

May, 2024

通过集合元调整数据集和提示，为零样本学习调整语言模型

该论文提出了元调谐（meta-tuning）方法，旨在直接针对零样本学习目标对预训练语言模型进行微调，应用于分类任务，并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明，相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型，元调整模型在新的任务上表现更好，同时我们认为，增加参数数量会进一步提升 AUC-ROC 分数。

Apr, 2021

使用统一的多选视角进行零样本自然语言理解

本篇论文提出一种新的零样本学习范式，其适用于任何格式，并适用于一系列语言任务，如文本分类、常识推理、指代消解和情感分析，并将零样本学习转化为多选任务，从而避免大规模生成模型的问题。该方法不仅增加了模型的推广能力，而且显著减少了参数的数量，同时具有高效的训练和部署特点。经实验结果表明，该方法在多个基准测试中表现卓越，且仅使用了 235M 的参数，远小于拥有十亿参数的现有先进模型。

Oct, 2022

教小型语言模型如何推广到未见过的组合问题

我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法，并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。

Aug, 2023

多任务提示训练实现零样例任务泛化

通过将广泛多样的监督数据集转换为易读提示集合的方式，使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现，该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能，并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。

Oct, 2021

Go-tuning：提高较小语言模型的零样本学习能力

本文探讨如何在较小模型的规模下，通过几何引导的自监督学习方法进行任务感知的自监督数据调整，实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small（80M）能够达到 T5-XL（3B）的竞争零样本结果，并开发了一个多任务模型 mgo-T5（250M），达到九个数据集的 OPT（175B）的平均性能。

Dec, 2022