学习特征表示用于关键词提取

AAAIJan, 2018

Learning Feature Representations for Keyphrase Extraction

Corina Florescu, Wei Jin

TL;DR本文介绍了一种基于机器学习的方法，用于在文本中提取关键短语，通过构建文档的图表示和自动学习短语的特征表示，相比强基线模型取得了显著的性能提升。

Abstract

In supervised approaches for keyphrase extraction, a candidate phrase is encoded with a set of hand-crafted features and machine learning

supervised approaches keyphrase extraction machine learning feature learning graph representation

发现论文，激发创造

基于跨度特征表示的关键短语提取

该论文提出了一种新颖的 Span Keyphrase Extraction 模型，能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示，并进一步学习捕捉单个文档中关键短语之间的交互，以获得更好的排序结果。

Feb, 2020

一种高效的领域无关的监督关键词抽取和排序方法

我们提出了一种基于监督学习的自动提取文档关键词短语的方法，该方法利用候选短语的简单计算的统计和位置特征，不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示，我们的方法达到了明显较高的准确性，相对于包括所有基于深度学习的无监督模型在内的多个最新方法，它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的，但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实，使得我们的方法在很大程度上具备了无监督方法的优势。

Mar, 2024

可解释神经网络无监督关键词提取

本文提出了一种基于预测文档主题的显著性测量方法 INSPECT，用于自动提取关键短语，取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法，并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。

Mar, 2022

使用句向量进行简单的无监督关键短语抽取

本文提出了一种新颖的无监督方法，即 EmbedRank，通过使用句子嵌入从单个文档中提取关键短语，进而在标准数据集上实现了比基于图的现有系统更高的 F-score，适用于实时处理大量 Web 数据，并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性，200 份投票的用户调查表明，我们的高多样性选择得到人类的接受。

Jan, 2018

使用序列标注的关键词提取

本文提出了一种序列标注方法，将关键短语提取问题变为一个更自然的建模方式，并表明标注模型相比现有最先进的提取方法具有显著的性能优势。

Aug, 2016

关键词抽取综述

介绍了关键词提取的作用和方法，并对现有工作进行了综述和对不同评估方法进行了分析，重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。

May, 2019

关键词提取的学习算法

本文讨论了关键词自动提取在文本分析中的应用，将文本看作是短语的集合，并采用基于决策树和自定义 GenEx 算法的监督学习方法进行提取，实验结果表明自定义算法比通用算法符合人类阅读者的要求并可应用于广泛的应用领域。

Dec, 2002

SimCKP：关键短语表示的简洁对比学习

我们提出了一个简单的对比学习框架 SimCKP，它由两个阶段组成：1）一个提取器 - 生成器，通过对比学习的方式学习上下文感知的短语级表示，同时生成不出现在文档中的关键短语；2）一个重新排序器，通过将生成的短语的表示与相应的文档对齐来调整每个短语的得分。在多个基准数据集上的实验结果证明了我们提出的方法的有效性，其性能明显优于现有的模型。

Oct, 2023

从文本中学习提取关键词

本研究探讨关键短语在自动文本处理中的应用，通过使用决策树及特定算法 GenEx 进行有监督学习的方法，相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97，结果证明专用算法能更好的生成关键短语，同时 GenEx 在元数据生成和内容标记方面也表现优异。

Dec, 2002

PatternRank: 基于预训练语言模型和词性的无监督关键词提取

本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank，实验结果表明，在单文档关键词提取中，PatternRank 表现优于现有最先进的方法，并且作者提供了 KeyphraseVectorizers 软件包，使得提取出的关键词可以在不同领域中灵活应用。

Oct, 2022