WikiRank 基于背景知识的关键词提取算法改进

Mar, 2018

WikiRank 基于背景知识的关键词提取算法改进

WikiRank: Improving Keyphrase Extraction Based on Background Knowledge

Yang Yu, Vincent Ng

TL;DR本文提出了基于维基百科背景知识的关键短语提取方法 WikiRank，在构建语义图和将提取问题转化为图优化问题后，得到优化的参数集，相较于其他现有模型在 F1 得分上提升了超过 2%。

Abstract

Keyphrase is an efficient representation of the main idea of documents. While background knowledge can provide valuable information about documents, they are rarely incorporated in keyphrase extraction methods. I

keyphrase extraction wikirank background knowledge wikipedia optimization

发现论文，激发创造

一种高效的领域无关的监督关键词抽取和排序方法

我们提出了一种基于监督学习的自动提取文档关键词短语的方法，该方法利用候选短语的简单计算的统计和位置特征，不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示，我们的方法达到了明显较高的准确性，相对于包括所有基于深度学习的无监督模型在内的多个最新方法，它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的，但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实，使得我们的方法在很大程度上具备了无监督方法的优势。

Mar, 2024

使用句向量进行简单的无监督关键短语抽取

本文提出了一种新颖的无监督方法，即 EmbedRank，通过使用句子嵌入从单个文档中提取关键短语，进而在标准数据集上实现了比基于图的现有系统更高的 F-score，适用于实时处理大量 Web 数据，并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性，200 份投票的用户调查表明，我们的高多样性选择得到人类的接受。

Jan, 2018

关键词抽取综述

介绍了关键词提取的作用和方法，并对现有工作进行了综述和对不同评估方法进行了分析，重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。

May, 2019

通过网络挖掘进行连贯关键词提取

该论文介绍了一种 Kea 关键短语提取算法新的优化方法，通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标，提高了提取出的关键短语的语义连贯性，不受领域限制且结果良好

Aug, 2003

PatternRank: 基于预训练语言模型和词性的无监督关键词提取

本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank，实验结果表明，在单文档关键词提取中，PatternRank 表现优于现有最先进的方法，并且作者提供了 KeyphraseVectorizers 软件包，使得提取出的关键词可以在不同领域中灵活应用。

Oct, 2022

使用众包，轻量级过滤和共指归一化对新闻故事进行主题关键短语的监督提取

本文研究了使用信号词、Freebase 类别等语义特征和预处理步骤来提高自动关键词抽取的准确性，实验结果表明，浅层的语义特征、新闻类别、修辞信号是提高性能的最主要因素，并且将 Freebase 子类别与预处理结合使用，可略微提高性能。

Jun, 2013

可解释神经网络无监督关键词提取

本文提出了一种基于预测文档主题的显著性测量方法 INSPECT，用于自动提取关键短语，取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法，并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。

Mar, 2022

科学出版物分类方案中的无监督关键词提取和聚类

本文研究如何使用自动化方法提取科学文献中的关键词和短语，包括集成评分、语义网络和聚类等技术，并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明，集成评分可以提高关键词提取性能，基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能，但前者计算效率更高。最后，以术语为级别的语义关键词聚类可以将相似的术语组合在一起，适合用于构建分类方案。

Jan, 2021

UniKeyphrase: 用于关键词预测的统一提取和生成框架

本文提出了一种新的端到端学习框架 UniKeyphrase，通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系，能够更好地预测关键短语，实验结果表明，这种联合方法在关键短语预测上比主流方法表现更好。

Jun, 2021

图同排下的关键词标注

本文介绍了一种新的方法，可以在文本中同时进行关键词提取和关键词分配。经过实验验证，在人文和社会科学等不同领域的数据集上，与现有的关键词提取和关键词分配方法相比，本方法表现出了显著的改进。

Nov, 2016