WikiRank 基于背景知识的关键词提取算法改进
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
该论文介绍了一种 Kea 关键短语提取算法新的优化方法,通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标,提高了提取出的关键短语的语义连贯性,不受领域限制且结果良好
Aug, 2003
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
本文研究了使用信号词、Freebase 类别等语义特征和预处理步骤来提高自动关键词抽取的准确性,实验结果表明,浅层的语义特征、新闻类别、修辞信号是提高性能的最主要因素,并且将 Freebase 子类别与预处理结合使用,可略微提高性能。
Jun, 2013
本文提出了一种基于预测文档主题的显著性测量方法 INSPECT,用于自动提取关键短语,取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法,并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。
Mar, 2022
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能,但前者计算效率更高。最后,以术语为级别的语义关键词聚类可以将相似的术语组合在一起,适合用于构建分类方案。
Jan, 2021
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本文介绍了一种新的方法,可以在文本中同时进行关键词提取和关键词分配。经过实验验证,在人文和社会科学等不同领域的数据集上,与现有的关键词提取和关键词分配方法相比,本方法表现出了显著的改进。
Nov, 2016