May, 2023

预训练数据分布对病理报告分类效果的研究

TL;DR测试 4 个病理分类任务,涉及 2907 份前列腺癌病理报告,评估 5 个变压器预训练模型以及他们的不同预训练语料库,发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力,同时,混合域模型更具抗过度拟合性。同时,使用通用自然语言和特定领域语料库在预训练中互补起到了病理报告分类的作用。