MeSHup: 生物医学全文文献索引语料库

Apr, 2022

MeSHup: 生物医学全文文献索引语料库

MeSHup: A Corpus for Full Text Biomedical Document Indexing

Xindi Wang, Robert E. Mercer, Frank Rudzicz

TL;DR发布了一个大规模的带注释 MeSH 索引语料库，其中包含 1342667 篇文献；我们训练了一个综合文档特征和其关联标签的端到端模型，并报道了新的基线。

Abstract

Medical Subject Heading (MeSH) indexing refers to the problem of assigning a given biomedical document with the most relevant labels from an extremely large set of MeSH terms. Currently, the vast number of biomedical articles in the PubMed database are manually annotated by human curators, which is time consuming and costly; therefore, a computational system

mesh indexing biomedical documents annotated text corpus supervised learning end-to-end model

发现论文，激发创造

KenMeSH: 知识增强型生物医学文本标注系统

提出了一种名为 KenMeSH 的模型，该模型结合新的文本特征和动态知识增强掩码注意力，将文档特征与 MeSH 标签层次结构和期刊相关特征相结合以索引 MeSH 术语，实验结果表明，该方法在多项指标上实现了最先进的性能。

Mar, 2022

COVID-19 大流行背景下的生物医学文章零样本和小样本分类

本文探讨使用 MeSH 词汇信息加强 BioBERT 表示以适用于零样本 / 少样本任务，并指出结果表明多任务学习有助于诱导表示中的 MeSH 层级关系。

Jan, 2022

基于弱监督深度学习的生物医学文献大规模细粒度语义索引

本研究提出了一种基于深度学习的自动化主题注解细化方法，通过在文章摘要中的概念出现来进行弱监督，发现概念出现是自动化主题注解细化的强有力依据，还可以与基于字典的启发式算法相结合以进一步提高准确率。

Jan, 2023

系统评价文献检索中自动推荐 MeSH 词汇以实现有效查询构建

本研究探讨基于布尔查询的方法，提出词汇和基于预训练的语言模型方法来建议 MeSH 词汇术语，以自动识别高效的 MeSH 术语，并对每种方法的 MeSH 术语建议进行了广泛的分析和经验评估，以提高系统性综述查询的有效性。

Sep, 2022

MedMentions: 一个带有 UMLS 概念注释的大型生物医学语料库

介绍了 MedMentions 作为一种新的手动注释的生物医学概念识别资源，并描述了其 UMLS 2017 概念本体论中超过 3 百万个具体概念和 4000+ 个文摘和 350,000 多个链接提到的规模以及广泛覆盖生物医学学科领域的优点。同时，也提出了 MedMentions 子集，支持针对文档检索的实体识别任务。该数据集已包含训练、测试集，并且还提供了 Named Entity Recognition 的基线模型以及其指标，以鼓励相关领域的研究。

Feb, 2019

MeSH Suggester: 一个用于系统性评价布尔查询构建的 MeSH 术语建议库和系统

通过创建基于神经元概念的 MeSH（医学主题头词库）术语建议方法，并将其与最先进的 MeSH 术语建议方法进行比较，我们发现神经元概念的 MeSH 术语建议方法非常有效。我们进一步开发了基于 Web 和 Python 的 MeSH 术语建议原型系统，它允许用户从多种潜在的方法中获得建议，并帮助研究人员进一步开展研究和实验。该网络原型系统可通过 http 链接进行访问，而 Python 库则可以通过 https 链接获得。

Dec, 2022

MS2: 医学研究的多文档摘要

本研究针对医学干预方案的评估，提供了一个达到自动评估医学文献、整合多个研究结果的新数据集：MS^2。并基于 BART 模型，通过自由文本和结构化形式，提出了用于评估自动生成摘要质量的新指标。

Apr, 2021

PubMed 概要中疾病提及标注的微任务众包

通过研究发现，微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及，并通过专家投票方法将多个工作者的注释合并，生成 BioNLP 领域中完全标注的语料库。

Aug, 2014

一个包含多层病人、干预和结果注释的语料库，以支持医学文献语言处理

该研究提供了一份 5000 份医学文章摘要的标注语料库，其中的标注包括描述人口、干预方法及比较、以及测量结果等关键信息，旨在协助检索医学文献并支持循证医学实践。

Jun, 2018

一种用于科学挑战和方向发现的搜索引擎

本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务，以促进快速知识发现。我们构建并发布了一个专家注释的语料库，并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向，从而构建了一个专用搜索引擎。我们的实验表明，我们的系统在协助知识发现方面优于流行的科学搜索引擎，并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。

Aug, 2021