Jul, 2024

开放式多标签文本分类与极弱监督

TL;DR我们研究了极度弱监督下的开放世界多标签文本分类,通过用户提供简要描述而没有任何标签或标签空间。我们将用户描述用于大型语言模型(LLM)以查找原始文档的主导关键短语,并构建初始标签空间进行聚类。我们进一步应用零样本多标签分类器定位得分较低的文档,并迭代这一过程以发现全面的标签空间并构建一个新的多标签分类器,即X-MLClass。X-MLClass在各种数据集上取得了显著增加的标签空间覆盖率,例如,在AAPD数据集上比主题建模和关键词提取方法提高了40%,并且实现了最佳的端到端多标签分类精度。