针对实验室协议的领域特定 BERT 表示进行命名实体识别

EMNLPDec, 2020

针对实验室协议的领域特定 BERT 表示进行命名实体识别

Domain specific BERT representation for Named Entity Recognition of lab protocol

Tejas Vaidhya, Ayush Kaushal

TL;DR通过使用 Bio-Bert 模型进行实体标记，我们的模型在医疗领域的数据集上取得显著的性能提升。

Abstract

supervised models trained to predict properties from representations have been achieving high accuracy on a variety of tasks. For instance, the BERT family seems to work exceptionally well on the downstream task from NER tagging to the range of other linguistic tasks. But the vocabular

supervised models bert family medical field named entity tagging bio-bert

发现论文，激发创造

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在 i2b2/2010 数据集上评估，得到了 90.11 的 F1 分数。

Dec, 2023

BioALBERT: 一种简单而有效的预训练语言模型，用于生物医学命名实体识别

提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT，并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现，该模型可供未来研究使用。

Sep, 2020

Med-BERT: 基于大规模结构化电子病历的预训练上下文化嵌入，用于疾病预测

Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型，适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测，表明 Med-BERT 具有较高的准确性和泛化性能，可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。

May, 2020

基于特定领域 ALBERT 的生物医学自然语言处理任务基准测试

通过适应生物医学领域 (PubMed、PubMed Central 和 MIMIC-III 数据集) 并微调了 20 个基准数据集上的 6 个任务，我们提出了 BioALBERT，并展示了它在大部分任务中优于现有技术。

Jul, 2021

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

从生物医学文献中进行意图识别和实体提取

通过全面的实证评估，我们表明在生物医学文本中，受监督的微调方法仍然相关且比通用性的大型语言模型更有效，如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。

Apr, 2024

公开可用的临床 BERT 嵌入

本文探讨了基于词汇的上下文嵌入模型在临床领域的应用，发现相对于通用语料库，专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。

Apr, 2019

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

一种基于 Transformer 的零样本和少样本生物医学命名实体识别方法

本论文提出了一种基于 transformer 的方法来解决在生物医学领域中监督命名实体识别（NER）的挑战，包括零样本和少样本 NER。该方法基于将多类令牌分类的任务转化为二进制令牌分类，并在更多数据集和医学实体上预训练，从中可以学习给定实体和潜在类之间的语义关系。使用 PubMedBERT 调整模型进行的实验结果表明，该方法具有识别有限样本中的新实体的能力，对于零样本 NER 的平均 F1 得分达到 35.44％，对于 10 样本和 100 样本 NER 的平均 F1 得分分别为 69.94％和 79.51％。该方法可与目前的先进零样本和少样本 NER 方法相媲美甚至更好。

May, 2023