关键词抽取综述
本研究探讨关键短语在自动文本处理中的应用,通过使用决策树及特定算法 GenEx 进行有监督学习的方法,相较于通用算法 C4.5 及商用软件 Word 97 和 Search 97,结果证明专用算法能更好的生成关键短语,同时 GenEx 在元数据生成和内容标记方面也表现优异。
Dec, 2002
该论文介绍了一种 Kea 关键短语提取算法新的优化方法,通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标,提高了提取出的关键短语的语义连贯性,不受领域限制且结果良好
Aug, 2003
本文讨论了关键词自动提取在文本分析中的应用,将文本看作是短语的集合,并采用基于决策树和自定义 GenEx 算法的监督学习方法进行提取,实验结果表明自定义算法比通用算法符合人类阅读者的要求并可应用于广泛的应用领域。
Dec, 2002
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
本文提出了一种基于预测文档主题的显著性测量方法 INSPECT,用于自动提取关键短语,取代了需要领域专业知识的启发式短语重要性聚类或图中心性方法,并在科学出版物和新闻文章两个领域的四个数据集中取得了最先进的无监督关键短语提取结果。
Mar, 2022
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019