从语言模型中探测生物医学嵌入

ACLApr, 2019

Probing Biomedical Embeddings from Language Models

Qiao Jin, Bhuwan Dhingra, William W. Cohen, Xinghua Lu

TL;DR本文研究使用预训练的语言模型作为固定的特征提取器，并限制下游任务模型没有额外的序列建模层，探索在域内训练后的上下文词嵌入中携带的附加信息。结果发现，BioELMo 在编码实体类型和关系信息方面优于 BioBERT。

Abstract

contextualized word embeddings derived from pre-trained language models (LMs) show significant improvements on downstream NLP tasks. Pre-training on domain-specific corpora, such as →

contextualized word embeddings pre-trained language models probing experiments biomedical articles entity-type and relational information

发现论文，激发创造

利用上下文嵌入增强临床概念抽取

本研究旨在研究新的语言表示方法（如 ELMo，BERT）在医疗概念提取方面的应用，比较这些方法与传统词嵌入方法（word2vec，GloVe，fastText）的性能表现，并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明，基于大型医学语料库的上下文嵌入方法表现出色，优于现有所有方法。此外，与传统词表示相比，上下文嵌入方法还包含有价值的语义信息。

Feb, 2019

公开可用的临床 BERT 嵌入

本文探讨了基于词汇的上下文嵌入模型在临床领域的应用，发现相对于通用语料库，专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。

Apr, 2019

BIOptimus：使用课程学习预训练最佳生物医学语言模型于命名实体识别

本研究通过比较不同的预训练方法，包括从头开始预训练生物医学语言模型和在连续环境中预训练模型，并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重，加快预训练阶段并提高命名实体识别性能；此外，我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响；最终，我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus)，在多项生物医学命名实体识别任务中创造了新的技术水平

Aug, 2023

生物医学自然语言处理中的迁移学习：对于十个基准数据集上 BERT 和 ELMo 的评估

本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark，该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线，并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。

Jun, 2019

UmlsBERT: 使用统一医学语言系统词表增强上下文嵌入的临床领域知识

UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.

Oct, 2020

上下文嵌入概述调查

该综述评估了现有的上下文嵌入模型，跨语言多语预训练，上下文嵌入在下游任务中的应用，模型压缩和分析。

Mar, 2020

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

结合领域知识的上下文嵌入和模型加权在生物医学问答中的融合应用

本研究提出了一种结合上下文嵌入方法、开放领域 QA 模型以及生物医学领域预训练模型 BioBERT 的生物医学问答方法，并采用无监督预训练和受监督微调的方式进行训练。实验结果表明，该方法在公共数据集 Biomrc 上相较于现有最先进系统有着显著的性能优势。

Jun, 2022