Mar, 2023

MEDBERT.de:医疗领域全面德语 BERT 模型

TL;DR本文提出了一个针对德语医疗领域的预先训练的德语 BERT 模型,经过 4.7 百万德文医学文档的大规模语料库训练,取得了国内外八个医学基准测试的最新的最优表现。在评估模型整体性能的同时,本文对模型的能力进行了更深入的分析,探讨了数据去重对模型性能的影响,以及使用更高效的标记方法等的潜在好处,并证明域特定的模型对于长文本尤其有用,训练数据的去重并不一定会导致改善的性能,将更多的改善性能归因于大量的训练数据。此外,本文发现高效的标记只能在一定程度上提高模型的性能,并将权重和基于放射学数据的新基准公开提供给科学社区,鼓励进一步的研究。