关键词生成:多方面综述
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019
本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为,分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响,提出了一个新的度量框架 SoftKeyScore。结果表明,相比于标准的 F1 指标,SoftKeyScore 更适合用于评估两组给定关键词。
Apr, 2023
本研究测试了四个基准数据集,使用流行的基于 Transformer 的模型进行抽象文本摘要,以实现关键词提取的目的,并将结果与常见无监督和有监督方法进行比较。研究结果表明,这些摘要模型非常有效地生成关键词,但它们产生的大量单词都不在作者的关键词列表中,这使得摘要模型在 ROUGE-1 方面效果不佳。此外,对于几种排序策略进行调查的结果表明,策略的选择会影响关键词生成的性能。
Sep, 2022
本文证明了 Sequence-to-sequence 模型可以显著提高文档检索性能,并介绍了一种新的外在评估框架,以更好地理解生成关键词模型的局限性,包括文档补充中所遇到的困难和模型在不同领域中的一般化问题。
Jun, 2021
本文通过总结代表性的研究,从主流模型、数据集和评估指标等多方面回顾了关键短语预测这一任务,并重点关注了近年来越来越受到关注的基于深度学习的关键短语预测方法。此外,本文通过多组实验对代表性模型进行了细致的比较,并首次尝试使用相同的常用数据集和评估指标对这些模型进行深入分析,发现了它们的优缺点。最后,本文讨论了未来该课题的可能研究方向。
May, 2023
该论文提出了一种新颖的 Span Keyphrase Extraction 模型,能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示,并进一步学习捕捉单个文档中关键短语之间的交互,以获得更好的排序结果。
Feb, 2020
本文提出了一种新的集成方法,用于关键短语的生成,利用多任务学习的方法同时学习抽取式模型和生成式模型,采用神经网络集成预测结果,实验结果表明基于抽取式、生成式和检索式方法的综合方法更优。
Apr, 2019
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021