Apr, 2024

DinoBloom:一种用于血液学中可推广的细胞嵌入的基础模型

TL;DR血液病学中,计算模型具有显著的潜力,以提高诊断准确性、简化工作流程,并减少分析外周血细胞或骨髓涂片中的单个细胞的乏味工作。为解决大数据量效应不明显、数据集规模小以及从自然图像转移学习性能差的问题,我们介绍 DinoBloom,这是血液病学中首个基于单个细胞图像的基础模型,利用了定制的 DINOv2 流程。我们的模型基于 13 个多样化的公开数据集构建而成,包含了迄今为止最大的血液病学开源队列,包括超过 380,000 个白细胞图像的外周血和骨髓涂片。我们评估其泛化能力时,使用具有挑战性的域转移的外部数据集进行测试。我们展示了我们的模型在血液和骨髓涂片的细胞类型分类方面,在线性探测和 K 近邻评估,以及通过弱监督多实例学习对急性髓系白血病亚型进行分类方面,都优于现有的医学和非医学视觉模型。DinoBloom 系列模型(small、base、large 和 giant)可以适应各种下游应用,并成为分类问题的一个强有力的基线,同时有助于评估新数据集中的大数据批次效应。所有模型均可在 github.com/marrlab/DinoBloom 上获取。