本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本文介绍 SemEval 任务,研究从科学文档中提取关键词语和它们之间的关系,以帮助读者理解哪些文章描述了哪些过程、任务和材料,共有 26 个队伍进行了 3 种评估场景的提交,任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。
Apr, 2017
本研究提出了一种无监督的关键词提取模型,该模型通过多方图结构将主题信息进行编码,并利用关键词和主题之间的相互关系来提高候选关键词的排名,同时引入了新颖的机制来纳入关键词选择偏好。在三个广泛使用的数据集上的实验表明,该模型相比于现有的基于图形的模型具有显著的改进。
Mar, 2018
本文提出了一种新的基于超几何匹配模型(hyperbolic matching model)的关键词提取方法,通过在同一个超几何空间中对短语和文档进行表征,并用 Poincaré 距离显式地估计关键短语的相关性,取得了比 state-of-the-art 更好的实验效果。
May, 2022
本文提出了一种新的集成方法,用于关键短语的生成,利用多任务学习的方法同时学习抽取式模型和生成式模型,采用神经网络集成预测结果,实验结果表明基于抽取式、生成式和检索式方法的综合方法更优。
Apr, 2019
该论文提出了一种新颖的 Span Keyphrase Extraction 模型,能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示,并进一步学习捕捉单个文档中关键短语之间的交互,以获得更好的排序结果。
Feb, 2020
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024
本文提出了一种序列标注方法,将关键短语提取问题变为一个更自然的建模方式,并表明标注模型相比现有最先进的提取方法具有显著的性能优势。
Aug, 2016