本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
提出一种新的基于图的关键词生成方法,结合层次化注意力和拷贝机制,借鉴相关文献的显式知识,取得显著的成果。
Sep, 2021
本文提出了一种基于预训练语言模型和词性标注的无监督关键词提取方法 PatternRank,实验结果表明,在单文档关键词提取中,PatternRank 表现优于现有最先进的方法,并且作者提供了 KeyphraseVectorizers 软件包,使得提取出的关键词可以在不同领域中灵活应用。
Oct, 2022
通过聚集深度学习方法提供的依存句法分析器提供的链接形成的依赖图来建立神经网络和基于图的自然语言处理之间的桥梁,并通过提取最大强连通组件中的关键词和摘要来介绍统一的关键词、摘要和关系提取方法,从而构建一个新的对话引擎,利用内在结构信息提取命题之间的关系。
Sep, 2019
本文提出了一种新的方法来解决无监督关键词抽取任务,该方法联合建模本地和全局语境。本地语境是通过基于文档的图形结构计算的,而全局语境是通过矢量空间中的转型嵌入模型计算的。最后,联合建模全局和本地语境以进行排名。
本文提出了一种基于预测文档主题的显著性测量方法 INSPECT,用于自动提取关键短语,取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法,并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。
Mar, 2022
该研究介绍了他们提交的 ICASSP 2023 MUG 挑战赛第 4 轨道 —— 关键短语提取,并描述了他们开发的技术以改进关键短语提取的性能,包括采用命名实体识别任务的单类建模,用多类焦点损失函数替换丢失函数等。
Mar, 2023
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本文提出了一种 ClassKG 框架,使用图神经网络探索关键字图中的关键字之间的相关性,解决现有方法中关键字独立的问题,即忽略了它们之间的相关性,因此无法充分利用。该方法在长文本和短文本数据集上进行广泛实验,证明其性能显著优于现有方法。
Oct, 2021
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024