Feb, 2024

使用标签自编码器改进大规模 k 近邻文本分类

TL;DR本研究提出了一种多标签懒惰学习方法,以解决在存在高互相关联的复杂结构标签词汇的大型文档集合中的自动语义索引问题。该方法是传统 k 最近邻算法的演化,它使用经过训练的大型自编码器将大标签空间映射到较小的潜空间,并从该潜空间重新生成预测的标签。我们在 MEDLINE 生物医学文档集的大部分中使用医学主题词(MeSH)词库作为受控词汇对我们的提案进行了评估,实验中我们提出并评估了多种文档表示方法和不同的标签自编码器配置。