开放式多标签文本分类与极弱监督

Jul, 2024

开放式多标签文本分类与极弱监督

Open-world Multi-label Text Classification with Extremely Weak Supervision

Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu...

TL;DR我们研究了极度弱监督下的开放世界多标签文本分类，通过用户提供简要描述而没有任何标签或标签空间。我们将用户描述用于大型语言模型(LLM)以查找原始文档的主导关键短语，并构建初始标签空间进行聚类。我们进一步应用零样本多标签分类器定位得分较低的文档，并迭代这一过程以发现全面的标签空间并构建一个新的多标签分类器，即X-MLClass。X-MLClass在各种数据集上取得了显著增加的标签空间覆盖率，例如，在AAPD数据集上比主题建模和关键词提取方法提高了40%，并且实现了最佳的端到端多标签分类精度。

Abstract

We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief descripti

发现论文，激发创造

X-Class: 极弱监督文本分类

本文提出一种基于弱监督模型下的文本分类方法，利用表面类名进行自适应表示学习，通过一个新的框架 X-Class，通过计算类别间相似性和类别特征相似度，完成文档表示和分类，实验表明该方法在多个基准数据集上表现良好。

Oct, 2020

基于Transformer的极端多标签文本分类中局部和全局特征的利用

本研究提出了一种方法来结合transformer模型所产生的局部和全局特征，从而提高分类器的预测能力，在大规模分类任务的基准数据集上表现优异。

Apr, 2022

生成模型实现开放词汇极端分类

本文提出了一种针对开放词汇的极端多标签分类（OXMC）任务的序列到序列模型——GROOV，该模型可预测给定语料库之外的标签，且在预测已知标签时与现有最先进解决方案表现相当。

May, 2022

利用动态和细粒度的语义范围进行极端多标签文本分类

本文提出了一种用于极端多标签文本分类的新型框架TReaderXML，它采用动态和细粒度的语义范围来优化每个文本的先验类别语义范围，通过新型的双协作网络来找到目标标签，实验结果表明我们的方法在三个XMLC基准数据集上达到了新的最佳表现。

May, 2022

WOT-Class：弱监督开放领域文本分类

本文提出了一种弱监督开放世界文本分类的框架WOT-Class，其中通过迭代聚类、挖掘和排名象征性单词以及使用重叠的象征性单词作为桥梁来合并冗余类别，可实现有限的监督训练遍及可知和未知类别，并在7个流行的文本分类数据集上进行了广泛实验，表明WOT-Class具有比现有方法更好的性能和实用潜力。

May, 2023

极弱监督文本分类基准：基于种子匹配和提示方法的调和

本文介绍了第一次在统一标准下对SEED 和PROMPT两种方法进行XWS-TC基准测试的结果，发现两种方法都具有竞争力，SEED更加容许人类指导的改变，更有选择性的前置训练语言模型，而且SEED和PROMPT方法具有密切联系，基于原始文本的聚类后处理步骤能够大力促进两者的表现。

May, 2023

层次多标签文本分类的最新进展：一项综述

本文综述了层次化多标签文本分类的最新进展，包括开源数据集、主要方法、评估指标、学习策略和当前面临的挑战，并列举了一些未来的研究方向，以便社区进一步改进该领域。

Jul, 2023

MatchXML：一种高效的文本标签匹配框架用于极端多标签文本分类

通过提出MatchXML框架，我们在eXtreme Multi-label text Classification领域取得了state-of-the-art的准确率和速度，其中关键技术包括label embeddings、Hierarchical Label Tree和linear ranker。

Aug, 2023

从懒惰到高效：解决开放词汇极端分类中的缺失标签

本研究解决了开放词汇极端多标签分类中因数据注释自我选择偏差导致的缺失标签问题，尤其是在不受欢迎的输入中。我们提出积极未标记序列学习（PUSL），将该问题重新表述为无限关键短语生成任务，从而改善生成模型的性能，并采用一系列新的评估指标来有效评估模型表现。结果显示，PUSL在不平衡的电子商务数据集中生成了30%更多独特标签，且在较多标签情况下F1分数显著提高。

Aug, 2024

从懒惰到丰盛：通过正-无标签序列学习解决开放词汇极端分类中的缺失标签问题

本研究针对开放词汇极端多标签分类中因自我选择偏见导致的数据标注缺失问题，提出了正-无标签序列学习（PUSL）方法，将OXMC重新定义为无限关键词生成任务，从而解决生成模型“懒惰”的问题。实验结果表明，PUSL在处理缺失标签的极端分类任务中有效提高了预测质量，提供了可靠的评估指标。

Aug, 2024