图同排下的关键词标注
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
该论文介绍了一种 Kea 关键短语提取算法新的优化方法,通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标,提高了提取出的关键短语的语义连贯性,不受领域限制且结果良好
Aug, 2003
该论文提出了一种新颖的 Span Keyphrase Extraction 模型,能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示,并进一步学习捕捉单个文档中关键短语之间的交互,以获得更好的排序结果。
Feb, 2020
本文提出了基于维基百科背景知识的关键短语提取方法 WikiRank,在构建语义图和将提取问题转化为图优化问题后,得到优化的参数集,相较于其他现有模型在 F1 得分上提升了超过 2%。
Mar, 2018
该论文介绍了一种平台,集成了关键短语数据集,促进了关键短语提取算法的评估,对于希望改进他们的关键短语提取算法并推进自然语言处理领域的研究人员和开发人员非常有价值。
Oct, 2023
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
本文提出了一种基于预测文档主题的显著性测量方法 INSPECT,用于自动提取关键短语,取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法,并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。
Mar, 2022
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024