用于定位医学 BERT 和增强生物医学 BERT 的预训练技术
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
测试 4 个病理分类任务,涉及 2907 份前列腺癌病理报告,评估 5 个变压器预训练模型以及他们的不同预训练语料库,发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力,同时,混合域模型更具抗过度拟合性。同时,使用通用自然语言和特定领域语料库在预训练中互补起到了病理报告分类的作用。
May, 2023
本文介绍了针对西班牙语的生物医学和临床语言模型,通过实验不同的预训练选择和测试领域数据,生成可用于实际临床数据的模型,并通过对比 NER 任务,证实了进行特定领域的预训练对提高下游任务性能非常重要。
Sep, 2021
本研究旨在探讨语言资源有限情况下,各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响,并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现,在使用大量通用域语料库的情况下,通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外,本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。
May, 2023
Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型,适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测,表明 Med-BERT 具有较高的准确性和泛化性能,可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。
May, 2020
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019