使用类别描述标注的零样本文本分类训练的好处
本文旨在探究利用两种新的有效的预训练策略(Implicit 和 Explicit pre-training)来改善 PLMs 在不同方面与领域的数据上泛化能力,特别是在零样本情况下进行文本分类的任务。作者通过引入 UTCD 数据集进行评估,证明了该方法在一系列零样本范式的挑战数据集上实现了更好的泛化能力。
May, 2023
本文研究了使用自然语言实现零样本模型对新任务的自适应性,通过社交评论平台的文本和元数据作为简单的预训练任务,并提供分类任务的自然语言描述作为输入训练语言模型,以生成正确答案的方式进行自然语言的模型推广,克服了多任务分类的缺点,在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型,结果显示语言可以作为任务自适应的简单而强大的描述符,这为文本问题的新元学习策略指明了方向。
Dec, 2019
本文提出了一种基于标签描述的零样本文本分类器,其使用概率模型来在无监督的情况下选择最佳标签描述,并在情感、话题和立场等方面的各种数据集和任务上进行了评估,展示了多个标签描述的聚合可以提高性能。
Apr, 2022
当给定少量标记数据时,零样本学习方法可以利用外部信息(例如文本描述)来对输入文本数据进行实体和关系分类。然而,最近的研究表明这些方法对提供的实体(或关系)描述非常敏感,即使描述的微小修改也可能导致决策边界的变化。本文正式定义了识别零样本推断中有效描述的问题,并提出一种生成初始描述变体的策略、对它们进行排序的启发式方法以及一种能够通过描述增强来提升零样本模型预测效果的集成方法。实验结果表明,我们提出的方法在四个不同的实体和关系分类数据集上优于现有方法,并在零样本学习设置下实现了新的最先进结果。所提出解决方案的源代码和评估框架已经开源。
Jun, 2024
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
提出了使用零样本学习的方法在大语料库上训练模型来学习语句和其标签之间的关系,以实现模型对未知语句和标签的预测,并报告在三个不同数据集上的实验结果,该方法是自然语言处理中通向智能化的一步。
Dec, 2017
本文提出基于自我监督学习的新范式,通过使用无标签数据来调整语言模型,从而解决零样本文本分类任务,我们通过探索自由文本的内在结构,提出了一种新的学习目标,称为第一句预测,以弥合无标签数据和文本分类任务之间的差距。经过调整模型以学习基于其余部分预测段落中的第一句的能力后,模型能够在看不见的任务上进行零 - shot 推理,例如主题分类和情感分析。实验结果表明,我们的模型在 10 个任务中有 7 个优于最先进的基线模型。
May, 2023
本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签,并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比,在多个数据集上的绝对提升高达 11.7%(平均 3.8%),而与一些少样本提示基线相比的平均增益为 1.3%。
May, 2023
本文提出了一个两阶段的框架,结合了数据扩充和特征扩充来解决零样本文本分类问题,同时将四种语义知识结构(词嵌入,类别描述,类层次结构和通用知识图谱)纳入到该框架中,实验结果表明,该框架的单独和联合两个阶段相比基线和最近的方法均获得了最佳的整体准确率。
Mar, 2019