基于蕴含方法的零样本文本分类基准评估与数据集

EMNLPAug, 2019

基于蕴含方法的零样本文本分类基准评估与数据集

Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach

Wenpeng Yin, Jamaal Hay, Dan Roth

TL;DR该论文提出用一个文本蕴涵公式来研究不同方面的零样本文本分类问题，并提供了统一的数据集、标准化的评估和最先进的基线模型。

Abstract

zero-shot text classification (0Shot-TC) is a challenging nlu problem to which little attention has been paid by the research community. 0Shot-TC aims to associate an appropriate label with a piece of text, irres

zero-shot text classification nlu unified datasets standardized evaluations state-of-the-art baselines

发现论文，激发创造

Train Once, Test Anywhere: 零样本学习用于文本分类

提出了使用零样本学习的方法在大语料库上训练模型来学习语句和其标签之间的关系，以实现模型对未知语句和标签的预测，并报告在三个不同数据集上的实验结果，该方法是自然语言处理中通向智能化的一步。

Dec, 2017

零样本文本分类的标签无关预训练

本文旨在探究利用两种新的有效的预训练策略（Implicit 和 Explicit pre-training）来改善 PLMs 在不同方面与领域的数据上泛化能力，特别是在零样本情况下进行文本分类的任务。作者通过引入 UTCD 数据集进行评估，证明了该方法在一系列零样本范式的挑战数据集上实现了更好的泛化能力。

May, 2023

将语义知识融合应用于零样本文本分类

本文提出了一个两阶段的框架，结合了数据扩充和特征扩充来解决零样本文本分类问题，同时将四种语义知识结构（词嵌入，类别描述，类层次结构和通用知识图谱）纳入到该框架中，实验结果表明，该框架的单独和联合两个阶段相比基线和最近的方法均获得了最佳的整体准确率。

Mar, 2019

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022

使用类别描述标注的零样本文本分类训练的好处

本研究提出了一种简单的方法来进一步提高零 - shot 分类准确性，即利用精心策划的微调数据集描述任务的标签，进而在多个文本域中获得强大的预测模型。

May, 2023

ZeroBERTo：利用主题建模提高零样本文本分类能力

本文提出了一种名为 ZeroBERTo 的新模型，利用无监督聚类方法在分类任务前获取压缩数据表示，其在长文本输入的性能和执行时间上都优于 XLM-R， F1 分数比 FolhaUOL 数据集上的 XLM-R 高约 12％。

Jan, 2022

评估无监督文本分类：零样本和基于相似度的方法

本文对不同的基于相似性和零样本方法进行了系统评估，对四个文本分类数据集进行了基准测试，包括来自医疗领域的新数据集。此外，提出了新的 SimCSE 和 SBERT 基线，其中使用 SimCSE 或 SBERT 嵌入而不是简单的文本表示进一步增强了基于相似性的分类结果。在无监督文本分类方面，提出了新的基于相似性的 Lbl2TransformerVec 方法，其性能优于先前的最先进方法。我们的实验表明，大多数情况下，基于相似性的方法显着优于零样本方法。

Nov, 2022

强监督下的多线索零样本学习

利用多个文本来源和语义部分注释来提供更强的监督辅助信息，达到零样本识别和检索的目标。

Mar, 2016

通过自监督微调进行零 - shot 文本分类

本文提出基于自我监督学习的新范式，通过使用无标签数据来调整语言模型，从而解决零样本文本分类任务，我们通过探索自由文本的内在结构，提出了一种新的学习目标，称为第一句预测，以弥合无标签数据和文本分类任务之间的差距。经过调整模型以学习基于其余部分预测段落中的第一句的能力后，模型能够在看不见的任务上进行零 - shot 推理，例如主题分类和情感分析。实验结果表明，我们的模型在 10 个任务中有 7 个优于最先进的基线模型。

May, 2023

大规模多标签文本分类的实证研究，包括少量和零样本标签

本研究在多个数据集上评估了多种 Large-scale Multi-label Text Classification 方法，发现基于概率标签树的层次分类方法优于 Label-Wise Attention Networks。另外，结合 Transformer 的方法在两个数据集上实现了优秀的性能，同时提出了一种新的最先进的方法，将 BERT 与 LWANs 相结合。此外，还引入了图形感知注释接近度度量，提出了利用标签层次结构来改进少量和零 - shot 学习的新模型。

Oct, 2020