本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为,分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响,提出了一个新的度量框架 SoftKeyScore。结果表明,相比于标准的 F1 指标,SoftKeyScore 更适合用于评估两组给定关键词。
Apr, 2023
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本文提出了一种新的集成方法,用于关键短语的生成,利用多任务学习的方法同时学习抽取式模型和生成式模型,采用神经网络集成预测结果,实验结果表明基于抽取式、生成式和检索式方法的综合方法更优。
Apr, 2019
本文研究如何训练针对文本文档中关键短语的任务特定语言模型,通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验,并提出新的预训练目标 - 关键短语边界填充替换(KBIR),用于关键短语提取,与现有最佳方法相比,能够提高 8.16 个 F1 分数;此外,还提出了适用于 BART 的新的预训练设置 - KeyBART,能够在 CatSeq 格式中重现与输入文本相关的关键短语,用于关键短语生成,并能比现有最佳方法提高 4.33 个 F1M 分数。最后,对预训练语言模型进行细微调整,用于命名实体识别,问答,关系抽取,编写摘要等,达到了与现有最佳方法可比的性能,表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。
Dec, 2021
该论文介绍了一种新的情景,名为多语言关键短语生成,并提出了一种基于检索增强的方法来缓解非英语语言中数据短缺的问题,使用检索模型找到相关的英文段落并生成当前语言的关键短语。实验结果表明,所提出的方法优于所有基线模型。
May, 2022
本研究测试了四个基准数据集,使用流行的基于 Transformer 的模型进行抽象文本摘要,以实现关键词提取的目的,并将结果与常见无监督和有监督方法进行比较。研究结果表明,这些摘要模型非常有效地生成关键词,但它们产生的大量单词都不在作者的关键词列表中,这使得摘要模型在 ROUGE-1 方面效果不佳。此外,对于几种排序策略进行调查的结果表明,策略的选择会影响关键词生成的性能。
Sep, 2022
本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语,从而能够有效地捕捉其深层语义含义,并能够识别没有在文本中出现但基于语义意义的内容。
Apr, 2017
该论文综述了关键短语生成的一些方法,重点讨论基于神经网络的较新的抽象方法,同时介绍了过去二十年中关键短语生成和文本摘要的研究趋势。
Oct, 2019
本文深入研究了基于预训练语言模型(PLMs)的关键短语抽取和生成的设计选择及其表现,发现在领域内使用类 BERT 的 PLMs 可以用于构建强大且数据有效的关键短语生成模型。而在固定参数预算的情况下,将模型深度优先于模型宽度,将更多的层分配给编码器,能够带来更好的编码器 - 解码器模型的表现。同时,在引入四个领域内的 PLMs 后,本文在新闻领域中实现了有竞争力的表现,在科学领域中实现了最先进的表现。
Dec, 2022
传统的关键词预测方法无法满足用户和相关应用的多样需求,本文引入按需关键词生成,提出 MetaKP 基准和监督、非监督方法,通过大型语言模型的自一致性提示方法,在 NLP 基础设施中改进关键词生成性能,并在社交媒体上的疫情事件检测中展示了其潜力。
Jun, 2024