基于元数据诱导的对比学习，用于零样本多标签文本分类

WWWFeb, 2022

基于元数据诱导的对比学习，用于零样本多标签文本分类

Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text Classification

Yu Zhang, Zhihong Shen, Chieh-Han Wu, Boya Xie, Junheng Hao...

TL;DR本研究使用元数据引导对比学习的方法来训练文本分类模型，从而在没有标注文件的情况下，提供更好的多标签文本分类性能，特别是在训练数据呈现长尾标签分布时。

Abstract

Large-scale multi-label text classification (LMTC) aims to associate a document with its relevant labels from a large candidate set. Most existing LMTC approaches rely on massive human-annotated training data, which are often costly to obtain and suffer from a →

multi-label text classification zero-shot learning metadata-induced contrastive learning long-tailed label distribution document metadata

发现论文，激发创造

大规模多标签文本分类的实证研究，包括少量和零样本标签

本研究在多个数据集上评估了多种 Large-scale Multi-label Text Classification 方法，发现基于概率标签树的层次分类方法优于 Label-Wise Attention Networks。另外，结合 Transformer 的方法在两个数据集上实现了优秀的性能，同时提出了一种新的最先进的方法，将 BERT 与 LWANs 相结合。此外，还引入了图形感知注释接近度度量，提出了利用标签层次结构来改进少量和零 - shot 学习的新模型。

Oct, 2020

多标签文本分类中用平衡更新和集体损失替代数据注释

通过使用预训练语言模型，在低监督情况下有效提高多标签文本分类性能的方法。

Sep, 2023

探索对比学习用于长尾多标签文本分类

我们进行了关于有监督对比学习在多标签文本分类中的影响以及如何构建稳健的表示空间的研究，提出了一种新的对比损失函数，并在三个多标签数据集上实现了显著的宏 F1 分数改进。

Apr, 2024

极限零样本学习在极端文本分类中的应用

本文提出了一种使用预训练的 Transformer 编码器通过自监督对比损失学习实例和标签的语义嵌入的方法，即 MACLR，以解决极端多标签文本分类问题，包括 GZ-XMC、Extreme Zero-Shot XMC 和 Few-Shot XMC，在多个公共 EZ-XMC 数据集上实现了更好的性能。

Dec, 2021

ZeroDL：基于大型语言模型的零样本分布学习文本聚类

我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型，通过观察给定的大语言模型如何描述目标数据集，聚合大语言模型的开放式推理结果，并最终将聚合的元信息纳入实际任务中，我们展示了这种方法在文本聚类任务中的有效性，并通过上述过程的示例突出了上下文化的重要性。

Jun, 2024

检索增强多标签文本分类

本文提出了一种检索增强的方法来解决具有 Zipfian 分布标签支持的大标签集情况下的多标签文本分类问题，并通过交叉关注和检索来改善分类模型的样本效率，实验证明这种方法在标签分布偏斜、低资源训练和长文档数据情境下显著提高了模型性能。

May, 2023

利用多任务学习增强多标签文本分类中的标签相关反馈

通过引入多任务学习和标签相关性反馈机制来增强标签相关性学习，其中采用文档 - 标签交叉注意力机制来生成一个更具有区分度的文档表示，以及两个辅助标签共现预测任务来增强标签相关性学习，实验结果表明，我们的方法在 AAPD 和 RCV1-V2 数据集上优于竞争性基线方法。

Jun, 2021

欧盟立法上的大规模多标签文本分类

该研究在法律领域考虑了大规模多标签文本分类，提出了一个适用于 LMTC、few - 和 zero-shot 学习的新数据集 EURLEX，共包含 57k 个法律文档，注释有～4.3k 个 EUROVOC 标签；实验表明，具有标签注意力的 BIGRU 模型优于当前其他最先进的模型；领域特定的 WORD2VEC 和上下文敏感的 ELMO 嵌入进一步提高了性能；研究人员还发现，只考虑文档中的特定区域就足够了，这使得我们可以规避 BERT 的最大文本长度限制，并使用 fine-tune BERT 在所有情况下获得了最佳结果。

Jun, 2019

对比训练提高半结构化文档零样本分类能力

本研究使用了匹配方法，并对零样本学习中的半结构化文档分类任务进行了探索，使用对位对比目标来加强监督和无监督的零样本学习，显著提高了宏 F1 的结果。

Oct, 2022

层次感知联合对比学习实例和标签用于层次多标签文字分类

通过使用层次化多标签文本分类和对比学习的方法，提出了一种叫做 HJCL 的方法来解决半监督学习中样本生成引入噪声的问题，并构造批次数据以实现对比学习目标的完全利用。

Oct, 2023