计算病理学的视觉-语言基础模型探索
ARCH是一个计算病理学(CP)多实例字幕数据集,包含对一系列染色、组织类型和病理的诊断和形态学描述,我们使用内在维度估计,显示ARCH是唯一可以与计算机视觉类比的MS-COCO Captions匹敌的CP数据集,我们推测在密集的图像字幕上预训练的编码器可以学习可迁移表示,支持这个假设的证据是ARCH表示比ImageNet功能或通过自我监督或多任务学习仅在病理图像上获得的表示更好地转移至各种病理亚任务,我们发布了我们的最佳模型,并邀请其他研究人员在其CP任务上进行测试。
Mar, 2021
提出了MI-Zero框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023
通过从YouTube等多种资源中收集图像和文本,我们构建了一个大规模的视觉语言数据集Quilt-1M,其中共包含100万个成对的图像和文本样本,这是到目前为止规模最大的组织学图像和文本数据集,并通过微调预训练的CLIP模型在13个 diverse patch-level数据集和跨模态检索任务中优于最先进的模型。
Jun, 2023
本文介绍一种新颖的基于语言相关的自监督学习框架,即Hierarchical Language-tied Self-Supervised (HLSS)方法,用于医学图像的层次化表示学习。通过结合领域特定的自然语言信息与图像的层次化视觉表示,该方法在医学图像任务中取得了最先进的性能,同时还提供了更好的可解释性。
Mar, 2024
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
通过将图像与文本进行对齐,利用预先训练的视觉语言模型对组织病理图像进行定量分析,并生成可理解的特征嵌入。通过应用于聚类和分类任务,证明了TQx能够与计算病理学中广泛使用的视觉模型相媲美地量化和分析病理图像。
Jul, 2024
本研究解决了当前病理基础模型在外部队列和临床相关任务中独立评估不足的问题。我们基准测试了十种组织病理基础模型在多个癌症患者的样本上的表现,发现CONCH模型在42%的任务中表现最佳,而融合多个互补基础模型在66%的任务中优于单一模型。研究结果强调数据多样性在模型性能提升中的重要性。
Aug, 2024
本研究解决了当前组织病理学领域视觉-语言模型在逐块独立分类中的不足,提出了一种新的传导方法,通过结合文本预测和块间的亲和关系来提升模型性能。实验表明,该方法在四个数据集上大幅提高了分类准确度,且高效地处理了大量数据,展示了其在无标签条件下的强大潜力。
Sep, 2024