加强知识的视觉语言预训练在计算病理学中的应用

Apr, 2024

加强知识的视觉语言预训练在计算病理学中的应用

Knowledge-enhanced Visual-Language Pretraining for Computational Pathology

Xiao Zhou, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Weidi Xie...

TL;DR本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Abstract

In this paper, we consider the problem of visual representation learning for computational pathology, by exploiting large-scale image-text pairs gathered from public resources, along with the domain specific know

发现论文，激发创造

视觉语言预训练多实例零样例迁移用于组织病理学图像

提出了MI-Zero框架，它将对比可视语言预训练模型的零射频转换重构为多实例学习，以在吉盘组织学全幻灯片图像上释放其零射频转换能力，从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。

Jun, 2023

是否进行预训练？组织病理学语义分割领域专用预训练的案例研究

使用不同领域预训练模型对组织学影像进行初始化可显著提高疾病分类和细胞分割的效果，尤其对于腺体分割任务有显著的改善，而细胞分割任务则无明显改善。

Jul, 2023

计算病理学的视觉-语言基础模型探索

CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型，可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能，为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。

Jul, 2023

基于多模态视觉语言的人类病理学基础人工智能助手

PathChat是一种通用的、视觉-语言人工智能助理，经过预训练的视觉编码器与预先训练的大规模语言模型相结合，可用于病理学的教育、研究和临床决策。

Dec, 2023

增强病理检测的疾病描述分解：一种多方面的视觉语言匹配框架

通过咨询大型语言模型和医学专家，我们提出了一种新颖的VLP框架，将疾病描述分解为基本要素，利用对病理学可视表现的先前知识。通过整合Transformer模块，我们的方法将输入图像与疾病的多个要素进行对齐，生成以要素为中心的图像表示。通过整合每个要素的匹配，我们改善了图像与其相关疾病之间的兼容性。此外，我们还提出了一个面向要素的双头Transformer，用于处理已知和未知疾病，以优化综合检测效果。在七个数据集上进行实验证明，我们的方法在已见类别和新颖类别的AUC得分上分别超过最近的方法8.07%和11.23%。

Mar, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像-文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Jun, 2024

PathGen-1.6M: 160万病理图像-文本对的多机器人协作生成

利用大规模全扫描图像数据集和多模型协作的方法，生成高质量的图像-文本对，为病理学领域的 Vision Language Models 进行训练和指导调优，从而显著提高其分析病理图像的能力，并为下一代通用病理模型铺平了道路。

Jun, 2024

基于文本的定量和可解释的组织病理图像分析

通过将图像与文本进行对齐，利用预先训练的视觉语言模型对组织病理图像进行定量分析，并生成可理解的特征嵌入。通过应用于聚类和分类任务，证明了TQx能够与计算病理学中广泛使用的视觉模型相媲美地量化和分析病理图像。

Jul, 2024

对一种基于病理学模型的可解释性分析揭示了跨模态的生物相关嵌入

我们首次初步研究了类似解释能力方法在医学成像领域的应用，使用一个ViT-Small编码器对病理基金模型的特征进行分析，并在两个数据集上进行了应用：一个是病理图像数据集，另一个是与空间转录组学配对的病理图像数据集。我们在模型嵌入空间中发现了一种可解释的细胞和组织形态以及基因表达的表示方式。我们的研究为进一步探索可解释特征维度及其在医学和临床应用中的实用性铺平了道路。

Jul, 2024

PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

本研究解决了现有病理图像理解模型缺乏领域专用性的难题，提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法，研究发现PA-LLaVA在多模态模型中表现出最佳性能，具有推动计算病理学研究的潜力。

Aug, 2024