生物医学关键词生成的大规模数据集
该研究发布了两份研究文献语料库,包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据,有助于实现从科学文章中提取关键短语的任务。
Mar, 2022
本文介绍了 KPTimes 数据集,该数据集为新闻文本配对了编辑策划的关键词汇,并培训和评估了最先进的神经关键词生成模型,以获得其在新闻领域表现的深入洞见。
Nov, 2019
传统的关键词预测方法无法满足用户和相关应用的多样需求,本文引入按需关键词生成,提出 MetaKP 基准和监督、非监督方法,通过大型语言模型的自一致性提示方法,在 NLP 基础设施中改进关键词生成性能,并在社交媒体上的疫情事件检测中展示了其潜力。
Jun, 2024
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019
我们介绍了 BigBIO 项目,这是一个包含 126 个以上生物医学 NLP 数据集的社区库,可用于训练和评估语言模型,其数据集的元数据和编程访问支持元数据集合的构建,并且支持 End-to-End 的零样本任务。
Jun, 2022
在法律领域中,我们提供了 EUROPA 数据集来支持多语言关键短语生成,利用欧洲联盟 (EU) 法院的法律判决作为数据源,涵盖了所有 24 种 EU 官方语言。我们在此数据集上运行了多语言模型并分析了结果,结果显示在特定领域的多语言语料库上仍有改进的空间。
Mar, 2024
本篇论文探讨了如何利用半监督学习方法,在有限的有标签数据下,将无标签数据与有标签数据结合来提高关键短语生成的性能,实现多任务学习,通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明,利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。
Aug, 2018
本文提出了一种名为 AutoKeyGen 的关键词生成新方法,利用语料库中的短语库和部分匹配过程来确定文档中缺少的关键词,然后利用这些关键词训练一个深度生成模型,该方法在大量实验中表现优异,甚至能够在某些情况下击败强监督方法。
Apr, 2021