EMNLPNov, 2022

科学文档的层次多标签分类

TL;DR本文介绍一种新的数据集 SciHTC,包含 186,160 篇论文和 1,233 个学科分类,建立了层次化多标签文本分类的强基线,并提出了一种多任务学习方法来进行主题分类,获得 Macro-F1 得分 34.57%,显示这个数据集提供了显著的研究机会。