本研究测试了四个基准数据集,使用流行的基于 Transformer 的模型进行抽象文本摘要,以实现关键词提取的目的,并将结果与常见无监督和有监督方法进行比较。研究结果表明,这些摘要模型非常有效地生成关键词,但它们产生的大量单词都不在作者的关键词列表中,这使得摘要模型在 ROUGE-1 方面效果不佳。此外,对于几种排序策略进行调查的结果表明,策略的选择会影响关键词生成的性能。
Sep, 2022
该论文综述了关键短语生成的一些方法,重点讨论基于神经网络的较新的抽象方法,同时介绍了过去二十年中关键短语生成和文本摘要的研究趋势。
Oct, 2019
本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语,从而能够有效地捕捉其深层语义含义,并能够识别没有在文本中出现但基于语义意义的内容。
Apr, 2017
本文提出了一种名为 AutoKeyGen 的关键词生成新方法,利用语料库中的短语库和部分匹配过程来确定文档中缺少的关键词,然后利用这些关键词训练一个深度生成模型,该方法在大量实验中表现优异,甚至能够在某些情况下击败强监督方法。
Apr, 2021
本篇论文探讨了如何利用半监督学习方法,在有限的有标签数据下,将无标签数据与有标签数据结合来提高关键短语生成的性能,实现多任务学习,通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明,利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。
Aug, 2018
本文通过总结代表性的研究,从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务,并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外,本文通过多组实验对代表性模型进行了细致的比较,并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析,发现了它们的优缺点。最后,本文讨论了未来该课题的可能研究方向。
May, 2023
介绍了关键词提取的作用和方法,并对现有工作进行了综述和对不同评估方法进行了分析,重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。
May, 2019
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
本文介绍了如何从科学出版物的摘要中提取关键词和关键短语,以便于下游任务,如知识图谱建设、文本挖掘和学科分类。
Jul, 2022
本文基于自蒸馏的思想,提出了一个简单高效的联合学习方法,以有效利用数以百万计的未注释科学文章,从而改进关键短语提取的性能,并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。
Oct, 2020