无监督深度关键词生成

Apr, 2021

Unsupervised Deep Keyphrase Generation

Xianjie Shen, Yinghan Wang, Rui Meng, Jingbo Shang

TL;DR本文提出了一种名为 AutoKeyGen 的关键词生成新方法，利用语料库中的短语库和部分匹配过程来确定文档中缺少的关键词，然后利用这些关键词训练一个深度生成模型，该方法在大量实验中表现优异，甚至能够在某些情况下击败强监督方法。

Abstract

keyphrase generation aims to summarize long documents with a collection of salient phrases. deep neural models have demonstrated a remarkable success in this task, capable of predicting keyphrases that are even a

keyphrase generation deep neural models unsupervised method generative model lexical and semantic similarity

发现论文，激发创造

深度关键词生成

本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语，从而能够有效地捕捉其深层语义含义，并能够识别没有在文本中出现但基于语义意义的内容。

Apr, 2017

KPDrop：提升缺失关键词生成

本文提出了一种名为 KPDrop 的模型无关方法来提高缺失关键短语的生成，测试结果表明它可以在监督和资源受限的半监督设置中持续改善强基线的缺失性能。

Dec, 2021

关键短语生成：文本摘要化的挑战

通过考虑关键短语字符串作为标题和摘要的抽象摘要，探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据，但我们对四个测试数据集的系统评估表明，探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。

Mar, 2019

神经关键词生成的半监督学习

本篇论文探讨了如何利用半监督学习方法，在有限的有标签数据下，将无标签数据与有标签数据结合来提高关键短语生成的性能，实现多任务学习，通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明，利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。

Aug, 2018

神经关键词生成：分析与评估

本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为，分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响，提出了一个新的度量框架 SoftKeyScore。结果表明，相比于标准的 F1 指标，SoftKeyScore 更适合用于评估两组给定关键词。

Apr, 2023

可解释神经网络无监督关键词提取

本文提出了一种基于预测文档主题的显著性测量方法 INSPECT，用于自动提取关键短语，取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法，并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。

Mar, 2022

无监督开放领域关键词生成

提出了一种无监督的、跨领域的关键词生成模型，由 seq2seq 模型、phraseness 模块和 informativeness 模块组成，在多个基准数据集上均获得了明显优于现有无监督模型的最佳结果。

Jun, 2023

从统计方法到深度学习，自动关键词预测：一项调查

本文通过总结代表性的研究，从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务，并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外，本文通过多组实验对代表性模型进行了细致的比较，并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析，发现了它们的优缺点。最后，本文讨论了未来该课题的可能研究方向。

May, 2023

基于 Transformer 的文本摘要技术用于关键词生成

本研究测试了四个基准数据集，使用流行的基于 Transformer 的模型进行抽象文本摘要，以实现关键词提取的目的，并将结果与常见无监督和有监督方法进行比较。研究结果表明，这些摘要模型非常有效地生成关键词，但它们产生的大量单词都不在作者的关键词列表中，这使得摘要模型在 ROUGE-1 方面效果不佳。此外，对于几种排序策略进行调查的结果表明，策略的选择会影响关键词生成的性能。

Sep, 2022

一种高效的领域无关的监督关键词抽取和排序方法

我们提出了一种基于监督学习的自动提取文档关键词短语的方法，该方法利用候选短语的简单计算的统计和位置特征，不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示，我们的方法达到了明显较高的准确性，相对于包括所有基于深度学习的无监督模型在内的多个最新方法，它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的，但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实，使得我们的方法在很大程度上具备了无监督方法的优势。

Mar, 2024