Zemi: 从多个任务中学习零样本半参数语言模型
本文探讨了使用零射击方式相对于微调方法的优势,并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且,作者认为此种方法的健壮性应从表征组合性的角度进行解释。
Jan, 2022
本研究探讨了如何利用大型语言模型进行零 - shot 语义解析的方法,提出了一种名为 ZEROTOP 的采用问答 (QA) 问题分解语义解析问题的解决方案,并通过精调语言模型在 QA 数据集上的表现,实现了对 MTOP 数据集中约 16% 的短语进行无标注数据的语义解析。
Dec, 2022
本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测,并将其视为多任务学习问题,从而建立准确的预测模型。我们的方法还同时进行了特征选择,识别出对多个任务的零样本表现具有影响的共同特征。
May, 2022
本论文提出了一种新颖的半参数语言模型结构,Knowledge-in-Context (KiC),通过一个知识丰富的外部存储器来增强参数化文本至文本语言模型,并且采用了一种实例自适应的知识选择器来进行训练,实验结果表明,KiC 比大规模的全参数语言模型在 40 多项不同任务上表现更出色。
Oct, 2022
语言模型与分词器(tokenizer)的绑定限制了其灵活性,本文提出了零 - shot 分词器迁移问题,并通过训练超网络解决了初始化嵌入向量的挑战,进一步缩短了分词序列,从而实现了对语言模型与其分词器的分离。
May, 2024
该论文提出了元调谐(meta-tuning)方法,旨在直接针对零样本学习目标对预训练语言模型进行微调,应用于分类任务,并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明,相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型,元调整模型在新的任务上表现更好,同时我们认为,增加参数数量会进一步提升 AUC-ROC 分数。
Apr, 2021
本篇论文提出一种新的零样本学习范式,其适用于任何格式,并适用于一系列语言任务,如文本分类、常识推理、指代消解和情感分析,并将零样本学习转化为多选任务,从而避免大规模生成模型的问题。该方法不仅增加了模型的推广能力,而且显著减少了参数的数量,同时具有高效的训练和部署特点。经实验结果表明,该方法在多个基准测试中表现卓越,且仅使用了 235M 的参数,远小于拥有十亿参数的现有先进模型。
Oct, 2022
我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法,并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。
Aug, 2023
通过将广泛多样的监督数据集转换为易读提示集合的方式,使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现,该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能,并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。
Oct, 2021
本文探讨如何在较小模型的规模下,通过几何引导的自监督学习方法进行任务感知的自监督数据调整,实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small(80M)能够达到 T5-XL(3B)的竞争零样本结果,并开发了一个多任务模型 mgo-T5(250M),达到九个数据集的 OPT(175B)的平均性能。
Dec, 2022