这篇论文介绍了 Kea,一种自动从文本中提取关键词的算法,该算法使用词法方法识别关键词并使用机器学习算法预测关键词,具有简单、强大和可公开使用等特点。
Feb, 1999
介绍了关键词提取的作用和方法,并对现有工作进行了综述和对不同评估方法进行了分析,重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。
May, 2019
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
该论文介绍了一种 Kea 关键短语提取算法新的优化方法,通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标,提高了提取出的关键短语的语义连贯性,不受领域限制且结果良好
Aug, 2003
本文介绍了一种新的方法,可以在文本中同时进行关键词提取和关键词分配。经过实验验证,在人文和社会科学等不同领域的数据集上,与现有的关键词提取和关键词分配方法相比,本方法表现出了显著的改进。
Nov, 2016
本文提出了基于维基百科背景知识的关键短语提取方法 WikiRank,在构建语义图和将提取问题转化为图优化问题后,得到优化的参数集,相较于其他现有模型在 F1 得分上提升了超过 2%。
Mar, 2018
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能,但前者计算效率更高。最后,以术语为级别的语义关键词聚类可以将相似的术语组合在一起,适合用于构建分类方案。
Jan, 2021
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022