CPLIP: 全面的视觉-语言对齐下的组织病理学零样本学习

Jun, 2024

CPLIP: 全面的视觉-语言对齐下的组织病理学零样本学习

CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment

Sajid Javed, Arif Mahmood, Iyyakutti Iyappan Ganapathi, Fayaz Ali Dharejo, Naoufel Werghi...

TL;DR该研究提出了一种名为综合病理语言图像预训练（CPLIP）的无监督技术，用于增强组织病理学中图像和文本的对齐，以进行分类和分割等任务。CPLIP通过利用大量数据而不需要地面真实注释，来丰富视觉-语言模型。通过构建特定于病理学的词典、使用语言模型为图像生成文本描述，并通过预训练模型检索每个文本片段的相关图像，再运用多对多对比学习方法对模型进行微调，以使复杂的相关概念在两种模态之间对齐。在多个组织病理学任务中进行评估，CPLIP在零样本学习场景中显示出显著的改进，超越了现有方法在可解释性和鲁棒性方面，并在该领域中树立了更高的基准。为了鼓励进一步的研究和复制，CPLIP的代码可在GitHub上获取。

Abstract

This paper proposes comprehensive pathology language image pre-training (CPLIP), a new unsupervised technique designed to enhance the alignment of images and text in →

发现论文，激发创造

像病理学家一样学习: 基于注释者一致性的组织病理学图片分类课程学习

该论文提出了一种简单的课程学习方法，用于根据标注者一致性评估的难度逐步训练组织病理学图像分类模型，在结直肠息肉分类任务中将模型性能从83.7%的AUC提高到88.2%的AUC，以启发研究人员在选择应用课程学习时更具创造性和严谨性。

Sep, 2020

视觉语言预训练多实例零样例迁移用于组织病理学图像

提出了MI-Zero框架，它将对比可视语言预训练模型的零射频转换重构为多实例学习，以在吉盘组织学全幻灯片图像上释放其零射频转换能力，从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。

Jun, 2023

计算病理学的视觉-语言基础模型探索

CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型，可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能，为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。

Jul, 2023

加强知识的视觉语言预训练在计算病理学中的应用

本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Apr, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像-文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Jun, 2024

PathGen-1.6M: 160万病理图像-文本对的多机器人协作生成

利用大规模全扫描图像数据集和多模型协作的方法，生成高质量的图像-文本对，为病理学领域的 Vision Language Models 进行训练和指导调优，从而显著提高其分析病理图像的能力，并为下一代通用病理模型铺平了道路。

Jun, 2024

PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

本研究解决了现有病理图像理解模型缺乏领域专用性的难题，提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法，研究发现PA-LLaVA在多模态模型中表现出最佳性能，具有推动计算病理学研究的潜力。

Aug, 2024

计算病理学的新纪元：基础模型与视觉语言模型的调研

本研究解决了当前计算病理学中深度学习模型的局限性，提出了一种整合基础模型和视觉语言模型的新方法。通过系统性调研，展示了这些模型在病理学报告中的应用潜力及其对病理学诊断流程的重大影响。研究结果表明，这些模型可以显著改善病理学的评估与决策过程。

Aug, 2024

提升视觉-语言模型在组织病理学分类中的表现：一次性预测

本研究解决了当前组织病理学领域视觉-语言模型在逐块独立分类中的不足，提出了一种新的传导方法，通过结合文本预测和块间的亲和关系来提升模型性能。实验表明，该方法在四个数据集上大幅提高了分类准确度，且高效地处理了大量数据，展示了其在无标签条件下的强大潜力。

Sep, 2024

MI-VisionShot：用于组织病理图像滑动级分类的视觉语言模型少量学习适应

本研究解决了在组织病理学中，基于视觉语言模型（VLM）进行滑动级别分类时，零样本转移高变异性的问题。提出的MI-VisionShot方法结合了原型学习，利用VLM进行训练前适应，实现了在少量样本学习场景下的滑动级标签预测，实验结果表明其表现超过传统零样本转移，变异性更低，具有潜在的临床应用价值。

Oct, 2024