用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

May, 2020

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

Pre-training technique to localize medical BERT and enhance biomedical BERT

Shoya Wada, Toshihiro Takeda, Shiro Manabe, Shozo Konishi, Jun Kamohara...

TL;DR本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

Abstract

pre-training large-scale neural language models on raw texts has made a significant contribution to improving transfer learning in natural language processing (NLP). With the introduction of →

pre-training neural language models transformer-based language models up-sampling bert

发现论文，激发创造

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

预训练数据分布对病理报告分类效果的研究

测试 4 个病理分类任务，涉及 2907 份前列腺癌病理报告，评估 5 个变压器预训练模型以及他们的不同预训练语料库，发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力，同时，混合域模型更具抗过度拟合性。同时，使用通用自然语言和特定领域语料库在预训练中互补起到了病理报告分类的作用。

May, 2023

面向西班牙语的生物医学和临床语言模型：中等资源情景下专业领域预训练的好处

本文介绍了针对西班牙语的生物医学和临床语言模型，通过实验不同的预训练选择和测试领域数据，生成可用于实际临床数据的模型，并通过对比 NER 任务，证实了进行特定领域的预训练对提高下游任务性能非常重要。

Sep, 2021

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023

Med-BERT: 基于大规模结构化电子病历的预训练上下文化嵌入，用于疾病预测

Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型，适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测，表明 Med-BERT 具有较高的准确性和泛化性能，可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。

May, 2020

BIOptimus：使用课程学习预训练最佳生物医学语言模型于命名实体识别

本研究通过比较不同的预训练方法，包括从头开始预训练生物医学语言模型和在连续环境中预训练模型，并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重，加快预训练阶段并提高命名实体识别性能；此外，我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响；最终，我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus)，在多项生物医学命名实体识别任务中创造了新的技术水平

Aug, 2023

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

生物医学问答预训练语言模型

本文研究 BioBERT（一种预训练的生物医学语言模型）在回答生物医学问题方面的性能，结果表明使用适当的前 / 后处理策略可以获得最佳性能。

Sep, 2019