UMLS Metathesaurus 中大规模生物医学词汇对齐的 UVA 资源

May, 2022

UMLS Metathesaurus 中大规模生物医学词汇对齐的 UVA 资源

UVA Resources for the Biomedical Vocabulary Alignment at Scale in the UMLS Metathesaurus

Vinh Nguyen, Olivier Bodenreider

TL;DR本文提出了一种名为 UVA 的新任务，用于改善 UMLS Metathesaurus 构建流程，并通过逻辑规则和神经网络等多个方面来生成基准数据集和方法。

Abstract

The construction and maintenance process of the umls (Unified Medical Language System) metathesaurus is time-consuming, costly, and error-prone as it relies on (1) the lexical and semantic processing for suggesti

umls metathesaurus vocabulary alignment dataset generator neural networks

发现论文，激发创造

UBERT: 用于大规模同义词预测的新型语言模型在 UMLS 元词汇表中的应用

介绍了 UBERT，一种基于 BERT 的语言模型，通过替换原始的下一句预测任务为监督的同义预测任务进行 UMLS 术语的预训练，该模型能有效地在 UMLS Metathesaurus 的构建过程中替代 LexLM 模型，并且对超过 200 种医学基础词汇进行聚类并识别其中的同义词。

Apr, 2022

WikiUMLS：通过跨语言神经排序将 UMLS 对齐到 Wikipedia

使用跨语言神经重排序模型对统一医学语言系统和维基百科进行手动对齐，精确度高达 72％，比基于词和字符级别的 BM25 方法提高了 20％。我们发布了相关资源，包括为 70 万个统一医学语言系统概念排序的维基百科页面，并提供了一个可用于训练和评估的统一医学语言系统和维基百科对齐模型数据集。这将在多种语言环境下为医疗专业人士、患者和自然语言处理系统提供更容易访问维基百科的方式。

May, 2020

通用可扩展的多阶段生物医学概念标准化利用大型语言模型

通过使用专有和开源的大型语言模型（LLMs）与生物医学研究中常用的多种基于规则的归一化系统相结合，提高实体归一化性能并消除了需要微调的需要。

May, 2024

高效的生物医学实体链接：低资源技术下的临床文本标准化

通过学习实体的同义词对，我们提出了一种用于临床文本标准化的方法，通过关联多个术语，从而显著减少训练数据和资源消耗，并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上，我们的方法表现与现有的零样本和远程监督实体链接技术相当，在没有基于领域的训练的情况下。最后，我们证明了单纯的检索性能可能不足以作为评估指标，并引入了一种基于文章的定量和定性分析，揭示了实体链接方法的进一步洞察。

May, 2024

UmlsBERT: 使用统一医学语言系统词表增强上下文嵌入的临床领域知识

UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.

Oct, 2020

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021

BioLORD-2023: 融合 LLM 和临床知识图谱洞察的语义文本表示

我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力，通过利用 UMLS 知识图谱和先进的大型语言模型，我们提出了一种新的先进方法，通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段，获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务，我们证明了与以往先进技术相比的一致且显著的性能改进（例如，在 MedSTS 上提高了 2 点，在 MedNLI-S 上提高了 2.5 点，在 EHR-Rel-B 上提高了 6.1 点）。除了我们的新型英文生物医学模型外，我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益，开启了生物医学语义表示学习在多种语言中发展的新途径，为全球的生物信息学研究人员提供了宝贵的工具。因此，我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。

Nov, 2023

MedMentions: 一个带有 UMLS 概念注释的大型生物医学语料库

介绍了 MedMentions 作为一种新的手动注释的生物医学概念识别资源，并描述了其 UMLS 2017 概念本体论中超过 3 百万个具体概念和 4000+ 个文摘和 350,000 多个链接提到的规模以及广泛覆盖生物医学学科领域的优点。同时，也提出了 MedMentions 子集，支持针对文档检索的实体识别任务。该数据集已包含训练、测试集，并且还提供了 Named Entity Recognition 的基线模型以及其指标，以鼓励相关领域的研究。

Feb, 2019