在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

May, 2023

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

Harnessing the Power of BERT in the Turkish Clinical Domain: Pretraining Approaches for Limited Data Scenarios

Hazal Türkmen, Oğuz Dikenelli, Cenk Eraslan, Mehmet Cem Çallı, Süha Süreyya Özbek

TL;DR本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

Abstract

In recent years, major advancements in natural language processing (NLP) have been driven by the emergence of large language models (LLMs), which have significantly revolutionized research and development within

natural language processing large language models pre-training methodologies turkish clinical language models multi-label classification

发现论文，激发创造

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

预训练数据分布对病理报告分类效果的研究

测试 4 个病理分类任务，涉及 2907 份前列腺癌病理报告，评估 5 个变压器预训练模型以及他们的不同预训练语料库，发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力，同时，混合域模型更具抗过度拟合性。同时，使用通用自然语言和特定领域语料库在预训练中互补起到了病理报告分类的作用。

May, 2023

面向西班牙语的生物医学和临床语言模型：中等资源情景下专业领域预训练的好处

本文介绍了针对西班牙语的生物医学和临床语言模型，通过实验不同的预训练选择和测试领域数据，生成可用于实际临床数据的模型，并通过对比 NER 任务，证实了进行特定领域的预训练对提高下游任务性能非常重要。

Sep, 2021

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型，同时比 BERT BASE 小 3.3 倍，快 5.1 倍。

Jun, 2021

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

DrBERT：一种健壮的法语医学临床领域预训练模型

对 PLMs 在医学领域的表现进行了比较，提出了一种在法语领域预先训练 DrBERT 模型的方法，并且发布了该领域专用的 PLMs。

Apr, 2023