公开可用的临床 BERT 嵌入

ACLApr, 2019

Publicly Available Clinical BERT Embeddings

Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin...

TL;DR本文探讨了基于词汇的上下文嵌入模型在临床领域的应用，发现相对于通用语料库，专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。

Abstract

contextual word embedding models such as elmo (Peters et al., 2018) and bert (Devlin et al., 2018) have dramatically improved performance

contextual word embedding models elmo bert natural language processing clinical text

发现论文，激发创造

利用上下文嵌入增强临床概念抽取

本研究旨在研究新的语言表示方法（如 ELMo，BERT）在医疗概念提取方面的应用，比较这些方法与传统词嵌入方法（word2vec，GloVe，fastText）的性能表现，并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明，基于大型医学语料库的上下文嵌入方法表现出色，优于现有所有方法。此外，与传统词表示相比，上下文嵌入方法还包含有价值的语义信息。

Feb, 2019

从语言模型中探测生物医学嵌入

本文研究使用预训练的语言模型作为固定的特征提取器，并限制下游任务模型没有额外的序列建模层，探索在域内训练后的上下文词嵌入中携带的附加信息。结果发现，BioELMo 在编码实体类型和关系信息方面优于 BioBERT。

Apr, 2019

UmlsBERT: 使用统一医学语言系统词表增强上下文嵌入的临床领域知识

UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.

Oct, 2020

从大规模临床记录中开发出通用的临床语言推断模型

本文通过使用领域专有词汇和大规模临床训练语料库，使用双向编码器解码器（BERT）模型对医疗语言推理任务进行分析和评估，与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比，我们的模型表现相同，并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型，但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。

Oct, 2022

Med-BERT: 基于大规模结构化电子病历的预训练上下文化嵌入，用于疾病预测

Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型，适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测，表明 Med-BERT 具有较高的准确性和泛化性能，可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。

May, 2020

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

针对实验室协议的领域特定 BERT 表示进行命名实体识别

通过使用 Bio-Bert 模型进行实体标记，我们的模型在医疗领域的数据集上取得显著的性能提升。

Dec, 2020

通用嵌入模型在短上下文临床语义搜索中的表现优于专门嵌入模型

使用大型语言模型（LLMs）进行医疗领域各种任务的工具和解决方案的使用日益增多，然而在这个高度关键和敏感的领域中，它们的稳健性以及所生成结果的可信度已经引起重要的问题。本研究通过构建基于 ICD-10-CM 代码描述的文本数据集来回答这些问题，该代码广泛应用于美国医院并包含许多临床术语及其易于复述。然后，我们对现有的嵌入模型进行了基准测试，无论是专门针对临床领域的模型还是通用模型，在一个语义搜索任务中，目标是将复述文本正确匹配到原始描述。我们的结果表明，通用模型的表现优于临床模型，这表明现有的临床专门模型更加敏感于输入的微小变化，从而使它们感到困惑。临床专门模型的突出问题可能是因为它们在训练时数据不够充分，特别是在没有足够多样化的数据集进行全局语言理解的情况下，而这对于准确处理医疗文档仍然是必要的。

Jan, 2024