针对生物医学自然语言处理的领域特定语言模型预训练

Jul, 2020

针对生物医学自然语言处理的领域特定语言模型预训练

Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing

Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama...

TL;DR本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Abstract

pretraining large neural language models, such as BERT, has led to impressive gains on many natural language processing (NLP) tasks. However, most →

pretraining language models biomedicine nlp tasks state-of-the-art results

发现论文，激发创造

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

面向西班牙语的生物医学和临床语言模型：中等资源情景下专业领域预训练的好处

本文介绍了针对西班牙语的生物医学和临床语言模型，通过实验不同的预训练选择和测试领域数据，生成可用于实际临床数据的模型，并通过对比 NER 任务，证实了进行特定领域的预训练对提高下游任务性能非常重要。

Sep, 2021

BioBART：一种医学生成语言模型的预训练和评估

本研究介绍了一种 BioBART 生成语言模型，适应于生物医学领域，用于对话、摘要、实体链接和命名实体识别等各种自然语言生成任务，预先培训在 PubMed 摘要上的 BioBART 比 BART 性能更出色，并在几个任务上设定了强基线。预处理任务的消融研究表明，句子置换对下游任务有负面影响。

Apr, 2022

预训练数据分布对病理报告分类效果的研究

测试 4 个病理分类任务，涉及 2907 份前列腺癌病理报告，评估 5 个变压器预训练模型以及他们的不同预训练语料库，发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力，同时，混合域模型更具抗过度拟合性。同时，使用通用自然语言和特定领域语料库在预训练中互补起到了病理报告分类的作用。

May, 2023

DrBERT：一种健壮的法语医学临床领域预训练模型

对 PLMs 在医学领域的表现进行了比较，提出了一种在法语领域预先训练 DrBERT 模型的方法，并且发布了该领域专用的 PLMs。

Apr, 2023

生物医学领域的预训练语言模型：一项系统调查

本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用，提出了现有生物医学 PLMs 的分类及其在下游任务中的应用，讨论了其限制与未来发展趋势。

Oct, 2021

为生物医学自然语言处理调整大型神经语言模型

本文系统研究了微生物 NLP 中 fine-tuning 的稳定性，提出了一系列技术来解决这个问题，并通过领域特定词汇和预训练来建立更健壮的模型。

Dec, 2021

BIOptimus：使用课程学习预训练最佳生物医学语言模型于命名实体识别

本研究通过比较不同的预训练方法，包括从头开始预训练生物医学语言模型和在连续环境中预训练模型，并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重，加快预训练阶段并提高命名实体识别性能；此外，我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响；最终，我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus)，在多项生物医学命名实体识别任务中创造了新的技术水平

Aug, 2023

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023