提升视觉-语言模型在组织病理学分类中的表现:一次性预测
提出了MI-Zero框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023
CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
本文提出了一种新的方法,利用少样本学习对2D组织学病理学图像进行分类。通过在组织学切片上应用滑动窗口技术,我们揭示了转导学习(即在补丁上进行联合预测)在实现一致准确分类中的实际效益。我们的方法采用基于优化的策略,主动惩罚每个窗口内大量不同类别的预测。我们在组织学数据上进行实验证明了我们方法的有效性以及提高自动癌症诊断和治疗过程的潜力,同时减少了专家标注所需的时间和精力。
Nov, 2023
本文介绍一种新颖的基于语言相关的自监督学习框架,即Hierarchical Language-tied Self-Supervised (HLSS)方法,用于医学图像的层次化表示学习。通过结合领域特定的自然语言信息与图像的层次化视觉表示,该方法在医学图像任务中取得了最先进的性能,同时还提供了更好的可解释性。
Mar, 2024
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
该研究提出了一种名为综合病理语言图像预训练(CPLIP)的无监督技术,用于增强组织病理学中图像和文本的对齐,以进行分类和分割等任务。CPLIP通过利用大量数据而不需要地面真实注释,来丰富视觉-语言模型。通过构建特定于病理学的词典、使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像,再运用多对多对比学习方法对模型进行微调,以使复杂的相关概念在两种模态之间对齐。在多个组织病理学任务中进行评估,CPLIP在零样本学习场景中显示出显著的改进,超越了现有方法在可解释性和鲁棒性方面,并在该领域中树立了更高的基准。为了鼓励进一步的研究和复制,CPLIP的代码可在GitHub上获取。
Jun, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
通过将图像与文本进行对齐,利用预先训练的视觉语言模型对组织病理图像进行定量分析,并生成可理解的特征嵌入。通过应用于聚类和分类任务,证明了TQx能够与计算病理学中广泛使用的视觉模型相媲美地量化和分析病理图像。
Jul, 2024
本研究解决了在组织病理学中,基于视觉语言模型(VLM)进行滑动级别分类时,零样本转移高变异性的问题。提出的MI-VisionShot方法结合了原型学习,利用VLM进行训练前适应,实现了在少量样本学习场景下的滑动级标签预测,实验结果表明其表现超过传统零样本转移,变异性更低,具有潜在的临床应用价值。
Oct, 2024