关键短语生成：文本摘要化的挑战

Mar, 2019

关键短语生成：文本摘要化的挑战

Keyphrase Generation: A Text Summarization Struggle

Erion Çano, Ondřej Bojar

TL;DR通过考虑关键短语字符串作为标题和摘要的抽象摘要，探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据，但我们对四个测试数据集的系统评估表明，探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。

Abstract

Authors' keyphrases assigned to scientific articles are essential for recognizing content and topic aspects. Most of the proposed supervised and unsupervised methods for keyphrase generation are unable to produce

keyphrase generation supervised methods unsupervised methods text summarization neural architectures scientific paper metadata

发现论文，激发创造

基于 Transformer 的文本摘要技术用于关键词生成

本研究测试了四个基准数据集，使用流行的基于 Transformer 的模型进行抽象文本摘要，以实现关键词提取的目的，并将结果与常见无监督和有监督方法进行比较。研究结果表明，这些摘要模型非常有效地生成关键词，但它们产生的大量单词都不在作者的关键词列表中，这使得摘要模型在 ROUGE-1 方面效果不佳。此外，对于几种排序策略进行调查的结果表明，策略的选择会影响关键词生成的性能。

Sep, 2022

关键词生成：多方面综述

该论文综述了关键短语生成的一些方法，重点讨论基于神经网络的较新的抽象方法，同时介绍了过去二十年中关键短语生成和文本摘要的研究趋势。

Oct, 2019

深度关键词生成

本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语，从而能够有效地捕捉其深层语义含义，并能够识别没有在文本中出现但基于语义意义的内容。

Apr, 2017

无监督深度关键词生成

本文提出了一种名为 AutoKeyGen 的关键词生成新方法，利用语料库中的短语库和部分匹配过程来确定文档中缺少的关键词，然后利用这些关键词训练一个深度生成模型，该方法在大量实验中表现优异，甚至能够在某些情况下击败强监督方法。

Apr, 2021

神经关键词生成的半监督学习

本篇论文探讨了如何利用半监督学习方法，在有限的有标签数据下，将无标签数据与有标签数据结合来提高关键短语生成的性能，实现多任务学习，通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明，利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。

Aug, 2018

从统计方法到深度学习，自动关键词预测：一项调查

本文通过总结代表性的研究，从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务，并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外，本文通过多组实验对代表性模型进行了细致的比较，并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析，发现了它们的优缺点。最后，本文讨论了未来该课题的可能研究方向。

May, 2023

关键词抽取综述

介绍了关键词提取的作用和方法，并对现有工作进行了综述和对不同评估方法进行了分析，重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。

May, 2019

从文本中学习提取关键词

本研究探讨关键短语在自动文本处理中的应用，通过使用决策树及特定算法 GenEx 进行有监督学习的方法，相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97，结果证明专用算法能更好的生成关键短语，同时 GenEx 在元数据生成和内容标记方面也表现优异。

Dec, 2002

科技文献中的关键词提取

本文介绍了如何从科学出版物的摘要中提取关键词和关键短语，以便于下游任务，如知识图谱建设、文本挖掘和学科分类。

Jul, 2022

基于自蒸馏的科技文献关键词提取的联合学习方法

本文基于自蒸馏的思想，提出了一个简单高效的联合学习方法，以有效利用数以百万计的未注释科学文章，从而改进关键短语提取的性能，并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。

Oct, 2020