MEDBERT.de：医疗领域全面德语 BERT 模型

Mar, 2023

MEDBERT.de：医疗领域全面德语 BERT 模型

MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain

Keno K. Bressem, Jens-Michalis Papaioannou, Paul Grundmann, Florian Borchert, Lisa C. Adams...

TL;DR本文提出了一个针对德语医疗领域的预先训练的德语 BERT 模型，经过 4.7 百万德文医学文档的大规模语料库训练，取得了国内外八个医学基准测试的最新的最优表现。在评估模型整体性能的同时，本文对模型的能力进行了更深入的分析，探讨了数据去重对模型性能的影响，以及使用更高效的标记方法等的潜在好处，并证明域特定的模型对于长文本尤其有用，训练数据的去重并不一定会导致改善的性能，将更多的改善性能归因于大量的训练数据。此外，本文发现高效的标记只能在一定程度上提高模型的性能，并将权重和基于放射学数据的新基准公开提供给科学社区，鼓励进一步的研究。

Abstract

This paper presents this http URL, a pre-trained german bert model specifically designed for the German medical domain. The model has been trained on a large corpus of 4.7 Million German medical documents and has

german bert model medical domain data deduplication tokenization training data

发现论文，激发创造

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

URLBERT: URL 分类的对比和对抗预训练模型

通过在大量 URL 文本上进行预训练，URLBERT 模型能够在各类 URL 分类或检测任务中取得最先进的性能，并且能处理复杂任务要求，同时提供了多任务学习的探索。

Feb, 2024

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

GERNERMED++：德语医学 NLP 中的迁移学习

本文提出了一个用于德语医学自然语言处理的统计模型，通过迁移学习，预训练的深度语言模型，词对齐和神经机器翻译的多技术组合，有效地在实体识别性能上取得了强大的结果。该模型可作为基线模型，为德国医疗场景的 NLP 研究社区提供帮助。

Jun, 2022

Med-BERT: 基于大规模结构化电子病历的预训练上下文化嵌入，用于疾病预测

Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型，适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测，表明 Med-BERT 具有较高的准确性和泛化性能，可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。

May, 2020

DrBERT：一种健壮的法语医学临床领域预训练模型

对 PLMs 在医学领域的表现进行了比较，提出了一种在法语领域预先训练 DrBERT 模型的方法，并且发布了该领域专用的 PLMs。

Apr, 2023

德国 FinBERT：一种德语预训练语言模型

德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型，通过综合的预训练过程进行训练，利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明，在金融领域数据上，德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能，表明其捕捉领域特定细微差别的效果，该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具，有潜在的应用于金融领域的多个应用场景。

Nov, 2023

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019