Mar, 2024

一种高效的领域无关的监督关键词抽取和排序方法

TL;DR我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。