HAXMLNet:用于极端多标签文本分类的分层注意力网络
本研究介绍了一种新的基于标签树的深度学习模型 AttentionXML,它采用多标签注意机制和浅而宽的概率标签树来处理极端多标签文本分类问题,能够对数百万个标签进行处理,并成功地解决了 BOW 和传统深度学习模型在文本分类中的局限性。在几个基准数据集上,AttentionXML 表现出比其他八种最先进的方法更好的性能,期望成为文本分类领域内的研究热点。
Nov, 2018
该研究提出了一种名为 LAHA 的模型,该模型利用文本内容和标签关联性之间的语义关系,建立了一个显式的标签感知表征,特别是在尾标签的情况下,使得模型在非常大规模的标签集中的文本标记任务中表现出了卓越性能。
May, 2019
本文提出了一种基于注意力机制的层次化多标签学术文本分类算法,该算法结合了文本、关键词和层次结构等特征,利用 word2vec 和 BiLSTM 来获取文本、关键词和层次结构的嵌入式和潜在向量表示,并使用分层注意机制来捕捉关键词、标签层次结构和文本词向量之间的关联,以生成特定于分层的文档嵌入向量取代 HMCN-F 中的原始文本嵌入。实验结果显示,该算法具有较好的效果。
Mar, 2022
本文提出了基于深度学习的 XML 方法,采用基于词向量的自注意力和基于排序的自编码器,不仅能处理特征和标签之间的依赖关系,同时也可以考虑标签之间的依赖关系,该方法在标准数据集上表现优异。
Apr, 2019
采用生成协同网络来实现端到端训练和动态负面标签抽样的 LightXML,解决了现存方法中需要组合多个模型训练和过程中静态采样负面标签等问题,在五个极端多标签数据集中验证实验证明,LightXML 比 AttentionXML 等方法具有更小的模型大小和较低的计算复杂度。
Jan, 2021
本文提出了一种用于极端多标签文本分类的新型框架 TReaderXML,它采用动态和细粒度的语义范围来优化每个文本的先验类别语义范围,通过新型的双协作网络来找到目标标签,实验结果表明我们的方法在三个 XMLC 基准数据集上达到了新的最佳表现。
May, 2022
本文中,我们探究了处理极端多标记分类问题的概率标记树(PLTs),并通过实现 extremeText(XT)来证明 PLTs 在 precision@k 指标下是一个 HSM 的无遗憾多标签泛化。同时,我们证明了 pick-one-label 启发式算法在一般情况下不是一致的,我们的实现方法比使用 pick-one-label 的 HSM 和专门为 XMLC 问题设计的神经网络 XML-CNN 得到的结果更好。此外,XT 在统计性能、模型大小和预测时间等方面与许多最先进的方法相当,适合部署在在线系统中。
Oct, 2018
本文讨论在法律领域中进行的极端多标签文本分类(XMTC)任务,并发布了一个新的数据集,其中包含 57k 份来自欧洲公共文档数据库 EURLEX 的立法文件,注释了来自多学科词库 EUROVOC 的概念。本文实验了几种神经分类器,表明采用 self-attention 的 BIGRUs 优于目前使用基于标签的注意力的多标签最先进方法。用 BIGRUs 替换 CNN 在基于标签的注意力网络中,从而获得了最佳的整体性能。
May, 2019
通过提出 MatchXML 框架,我们在 eXtreme Multi-label text Classification 领域取得了 state-of-the-art 的准确率和速度,其中关键技术包括 label embeddings、Hierarchical Label Tree 和 linear ranker。
Aug, 2023
CascadeXML 是一种端到端的多分辨率学习流程,利用 transformer 模型的多层架构来应对不同的标签分辨率,并为每个分辨率保留独立的特征表示。CascadeXML 在标签数高达三百万的基准数据集上取得了显著的性能提升,是现有方法的最优选择。
Oct, 2022