生物医学关键词生成的大规模数据集

Nov, 2022

生物医学关键词生成的大规模数据集

A Large-Scale Dataset for Biomedical Keyphrase Generation

Mael Houbre, Florian Boudin, Beatrice Daille

TL;DR本文介绍了 kp-biomed 数据集，这是第一个从 PubMed 摘要中收集了超过 5M 篇文献的大规模生物医学关键词生成数据集，并训练发布了几个生成模型，并进行了一系列实验，表明使用大规模数据集显著提高了生成模型的性能。

Abstract

keyphrase generation is the task consisting in generating a set of words or phrases that highlight the main topics of a document. There are few datasets for keyphrase generation in the →

keyphrase generation biomedical dataset generative models performances

发现论文，激发创造

LDKP: 从长篇科技文档中鉴别关键词短语的数据集

该研究发布了两份研究文献语料库，包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据，有助于实现从科学文章中提取关键短语的任务。

Mar, 2022

KPTimes：一份针对新闻文档的大规模关键词生成数据集

本文介绍了 KPTimes 数据集，该数据集为新闻文本配对了编辑策划的关键词汇，并培训和评估了最先进的神经关键词生成模型，以获得其在新闻领域表现的深入洞见。

Nov, 2019

元词生成：按需生成关键词

传统的关键词预测方法无法满足用户和相关应用的多样需求，本文引入按需关键词生成，提出 MetaKP 基准和监督、非监督方法，通过大型语言模型的自一致性提示方法，在 NLP 基础设施中改进关键词生成性能，并在社交媒体上的疫情事件检测中展示了其潜力。

Jun, 2024

关键短语生成：文本摘要化的挑战

通过考虑关键短语字符串作为标题和摘要的抽象摘要，探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据，但我们对四个测试数据集的系统评估表明，探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。

Mar, 2019

BigBIO: 用于数据中心的生物医学自然语言处理框架

我们介绍了 BigBIO 项目，这是一个包含 126 个以上生物医学 NLP 数据集的社区库，可用于训练和评估语言模型，其数据集的元数据和编程访问支持元数据集合的构建，并且支持 End-to-End 的零样本任务。

Jun, 2022

深度关键词生成

本研究提出了一种基于编码 - 解码框架的生成模型来预测文本的关键短语，从而能够有效地捕捉其深层语义含义，并能够识别没有在文本中出现但基于语义意义的内容。

Apr, 2017

EUROPA: 法律多语种关键词生成数据集

在法律领域中，我们提供了 EUROPA 数据集来支持多语言关键短语生成，利用欧洲联盟 (EU) 法院的法律判决作为数据源，涵盖了所有 24 种 EU 官方语言。我们在此数据集上运行了多语言模型并分析了结果，结果显示在特定领域的多语言语料库上仍有改进的空间。

Mar, 2024

神经关键词生成的半监督学习

本篇论文探讨了如何利用半监督学习方法，在有限的有标签数据下，将无标签数据与有标签数据结合来提高关键短语生成的性能，实现多任务学习，通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明，利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。

Aug, 2018

无监督深度关键词生成

本文提出了一种名为 AutoKeyGen 的关键词生成新方法，利用语料库中的短语库和部分匹配过程来确定文档中缺少的关键词，然后利用这些关键词训练一个深度生成模型，该方法在大量实验中表现优异，甚至能够在某些情况下击败强监督方法。

Apr, 2021

低资源关键词生成的数据增强

本文提出了针对资源受限领域关键短语生成的数据增强策略，并设计了使用文章全文来改进关键短语生成技术的方法，在三个数据集上得到了显著的性能提升。

May, 2023