学习特征表示用于关键词提取
该论文提出了一种新颖的 Span Keyphrase Extraction 模型,能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示,并进一步学习捕捉单个文档中关键短语之间的交互,以获得更好的排序结果。
Feb, 2020
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024
本文提出了一种基于预测文档主题的显著性测量方法 INSPECT,用于自动提取关键短语,取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法,并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。
Mar, 2022
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
本文讨论了关键词自动提取在文本分析中的应用,将文本看作是短语的集合,并采用基于决策树和自定义 GenEx 算法的监督学习方法进行提取,实验结果表明自定义算法比通用算法符合人类阅读者的要求并可应用于广泛的应用领域。
Dec, 2002
我们提出了一个简单的对比学习框架 SimCKP,它由两个阶段组成:1)一个提取器 - 生成器,通过对比学习的方式学习上下文感知的短语级表示,同时生成不出现在文档中的关键短语;2)一个重新排序器,通过将生成的短语的表示与相应的文档对齐来调整每个短语的得分。在多个基准数据集上的实验结果证明了我们提出的方法的有效性,其性能明显优于现有的模型。
Oct, 2023
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022