介绍了关键词提取的作用和方法,并对现有工作进行了综述和对不同评估方法进行了分析,重点在数字信息管理系统中使用关键词提取的效果和流行的无监督技术进行了实验研究。
May, 2019
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019
本文介绍 SemEval 任务,研究从科学文档中提取关键词语和它们之间的关系,以帮助读者理解哪些文章描述了哪些过程、任务和材料,共有 26 个队伍进行了 3 种评估场景的提交,任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。
Apr, 2017
本文基于自蒸馏的思想,提出了一个简单高效的联合学习方法,以有效利用数以百万计的未注释科学文章,从而改进关键短语提取的性能,并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。
Oct, 2020
本研究提出了一种自动、准确和灵活的算法,能够从数字化科学文章中直接提取各种元数据,包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现,具有较高的精度,适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。
Oct, 2017
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
本文讨论了关键词自动提取在文本分析中的应用,将文本看作是短语的集合,并采用基于决策树和自定义 GenEx 算法的监督学习方法进行提取,实验结果表明自定义算法比通用算法符合人类阅读者的要求并可应用于广泛的应用领域。
该研究发布了两份研究文献语料库,包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据,有助于实现从科学文章中提取关键短语的任务。
Mar, 2022
使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成,利用引文生成摘要,通过 C-LexRank 对单篇文章进行摘要提取,同时拓展到一系列科学文献的摘要提取和分析,证明引文是创建摘要的一种独特信息资源。
Feb, 2014
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017