使用预训练语言模型进行关键短语预测

Apr, 2020

使用预训练语言模型进行关键短语预测

Keyphrase Prediction With Pre-trained Language Model

Rui Liu, Zheng Lin, Weiping Wang

TL;DR通过将关键短语预测分为现有关键短语提取与不存在关键短语生成两个子任务，并提出使用 BERT 在这两个子任务中实现联合推论的方法，本研究提供了一种全面利用提取和生成方法各自优势的方法，并在基准数据集上实现了最新的预测结果。

Abstract

Recently, generative methods have been widely used in keyphrase prediction, thanks to their capability to produce both present keyphrases that appear in the source text and absent keyphrases that do not match any

generative methods keyphrase prediction extractive model present keyphrase extraction absent keyphrase generation

发现论文，激发创造

神经关键词生成：分析与评估

本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为，分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响，提出了一个新的度量框架 SoftKeyScore。结果表明，相比于标准的 F1 指标，SoftKeyScore 更适合用于评估两组给定关键词。

Apr, 2023

UniKeyphrase: 用于关键词预测的统一提取和生成框架

本文提出了一种新的端到端学习框架 UniKeyphrase，通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系，能够更好地预测关键短语，实验结果表明，这种联合方法在关键短语预测上比主流方法表现更好。

Jun, 2021

通过探索检索与抽取的能力进行关键短语生成的综合方法

本文提出了一种新的集成方法，用于关键短语的生成，利用多任务学习的方法同时学习抽取式模型和生成式模型，采用神经网络集成预测结果，实验结果表明基于抽取式、生成式和检索式方法的综合方法更优。

Apr, 2019

从文本中学习关键词的丰富表示

本文研究如何训练针对文本文档中关键短语的任务特定语言模型，通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验，并提出新的预训练目标 - 关键短语边界填充替换（KBIR），用于关键短语提取，与现有最佳方法相比，能够提高 8.16 个 F1 分数；此外，还提出了适用于 BART 的新的预训练设置 - KeyBART，能够在 CatSeq 格式中重现与输入文本相关的关键短语，用于关键短语生成，并能比现有最佳方法提高 4.33 个 F1M 分数。最后，对预训练语言模型进行细微调整，用于命名实体识别，问答，关系抽取，编写摘要等，达到了与现有最佳方法可比的性能，表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。

Dec, 2021

检索增强的多语言关键词生成：借助检索器生成器迭代训练

该论文介绍了一种新的情景，名为多语言关键短语生成，并提出了一种基于检索增强的方法来缓解非英语语言中数据短缺的问题，使用检索模型找到相关的英文段落并生成当前语言的关键短语。实验结果表明，所提出的方法优于所有基线模型。

May, 2022

基于 Transformer 的文本摘要技术用于关键词生成

本研究测试了四个基准数据集，使用流行的基于 Transformer 的模型进行抽象文本摘要，以实现关键词提取的目的，并将结果与常见无监督和有监督方法进行比较。研究结果表明，这些摘要模型非常有效地生成关键词，但它们产生的大量单词都不在作者的关键词列表中，这使得摘要模型在 ROUGE-1 方面效果不佳。此外，对于几种排序策略进行调查的结果表明，策略的选择会影响关键词生成的性能。

Sep, 2022

深度关键词生成

本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语，从而能够有效地捕捉其深层语义含义，并能够识别没有在文本中出现但基于语义意义的内容。

Apr, 2017

关键词生成：多方面综述

该论文综述了关键短语生成的一些方法，重点讨论基于神经网络的较新的抽象方法，同时介绍了过去二十年中关键短语生成和文本摘要的研究趋势。

Oct, 2019

预训练语言模型用于关键词生成的彻底实证研究

本文深入研究了基于预训练语言模型（PLMs）的关键短语抽取和生成的设计选择及其表现，发现在领域内使用类 BERT 的 PLMs 可以用于构建强大且数据有效的关键短语生成模型。而在固定参数预算的情况下，将模型深度优先于模型宽度，将更多的层分配给编码器，能够带来更好的编码器 - 解码器模型的表现。同时，在引入四个领域内的 PLMs 后，本文在新闻领域中实现了有竞争力的表现，在科学领域中实现了最先进的表现。

Dec, 2022

元词生成：按需生成关键词

传统的关键词预测方法无法满足用户和相关应用的多样需求，本文引入按需关键词生成，提出 MetaKP 基准和监督、非监督方法，通过大型语言模型的自一致性提示方法，在 NLP 基础设施中改进关键词生成性能，并在社交媒体上的疫情事件检测中展示了其潜力。

Jun, 2024