本文研究了使用信号词、Freebase 类别等语义特征和预处理步骤来提高自动关键词抽取的准确性,实验结果表明,浅层的语义特征、新闻类别、修辞信号是提高性能的最主要因素,并且将 Freebase 子类别与预处理结合使用,可略微提高性能。
Jun, 2013
本文提出了一种生成多个与关键词相关、高质量、多样化新闻标题的方法,使用多源 Transformer 解码器,并构建了第一个大规模的具有关键词意识的新闻标题语料库,并在真实数据集上进行了广泛实验比较。
Apr, 2020
介绍了关键词提取的作用和方法,并对现有工作进行了综述和对不同评估方法进行了分析,重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。
May, 2019
该论文介绍了一种平台,集成了关键短语数据集,促进了关键短语提取算法的评估,对于希望改进他们的关键短语提取算法并推进自然语言处理领域的研究人员和开发人员非常有价值。
Oct, 2023
本研究提出了一种新颖的语料库和方法,用于从 Behance 平台上流播放的视频的转录中提取关键词短语,文章提出了一种用于从其他领域获得关键词提取任务的背景知识的新型数据增强方法,并在所提出的数据集上展开了广泛的实验。
Sep, 2022
本文介绍了 KPTimes 数据集,该数据集为新闻文本配对了编辑策划的关键词汇,并培训和评估了最先进的神经关键词生成模型,以获得其在新闻领域表现的深入洞见。
Nov, 2019
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019
该论文综述了关键短语生成的一些方法,重点讨论基于神经网络的较新的抽象方法,同时介绍了过去二十年中关键短语生成和文本摘要的研究趋势。
Oct, 2019
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
本文通过总结代表性的研究,从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务,并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外,本文通过多组实验对代表性模型进行了细致的比较,并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析,发现了它们的优缺点。最后,本文讨论了未来该课题的可能研究方向。
May, 2023