PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

Jun, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

PathAlign: A vision-language model for whole slide images in histopathology

Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko...

TL;DR基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像-文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Abstract

Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of →

发现论文，激发创造

计算病理学的视觉-语言基础模型探索

CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型，可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能，为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。

Jul, 2023

Long-MIL: 面向组织病理学全切片图像分析的长上下文多实例学习的扩展

本文提出了一种改良位置嵌入的长上下文WSI方法，通过引入线性偏差来处理形状变化的大WSI，并将其从1维长序列适应到2维长上下文WSI中，用于模型对未见或欠拟合位置的外推；同时利用闪存注意力模块解决Transformer的计算复杂性问题，保持了全自注意力的性能。通过在4个数据集上进行WSI分类和生存预测任务的广泛实验证明了我们方法在形状变化的WSIs上的优越性。

Nov, 2023

MI-Gen：用于千兆像素全切片图像的病理报告多示例生成

使用全幻灯片图像生成病理报告的多示例生成模型(MI-Gen)可减轻经验不足的病理医生的工作负担并提高临床自动化，同时简单的语义提取可以实现最佳性能且公开可用。

Nov, 2023

组织病理学图像搜索引擎的分析和验证

在组织学和组织病理学影像档案中搜寻相似影像是一项关键任务，可用于患者匹配，从分类、诊断到预后和预测的各个方面。本文详细分析和验证了四种搜索方法（包括视觉词袋、Yottixel、SISH和RetCCL），其算法和结构进行了评估，同时提出需要进一步研究组织病理学图像搜索中准确性和最小存储需求这两个方面的问题。

Jan, 2024

PathM3: 一个用于全幻灯片图像分类和字幕生成的多模式多任务多实例学习框架

通过多模态多任务多实例学习的 PathM3 框架，有效地将组织切片图像与诊断说明对齐，从而在组织病理学图像分类和生成诊断说明任务上提高了分类准确性和生成效果。

Mar, 2024

层次化文本到图像的自我监督对齐，以提高组织病理学表示学习

本文介绍一种新颖的基于语言相关的自监督学习框架，即Hierarchical Language-tied Self-Supervised (HLSS)方法，用于医学图像的层次化表示学习。通过结合领域特定的自然语言信息与图像的层次化视觉表示，该方法在医学图像任务中取得了最先进的性能，同时还提供了更好的可解释性。

Mar, 2024

PathGen-1.6M: 160万病理图像-文本对的多机器人协作生成

利用大规模全扫描图像数据集和多模型协作的方法，生成高质量的图像-文本对，为病理学领域的 Vision Language Models 进行训练和指导调优，从而显著提高其分析病理图像的能力，并为下一代通用病理模型铺平了道路。

Jun, 2024

WSI-VQA: 利用生成式视觉问答解释全切片图像

通过生成式视觉问答的方式，提出了一个新的框架 (WSI-VQA)，可以对整张切片图像进行解读，实现免疫组化分级、生存预测和肿瘤亚型划分等任务，并在医学正确性方面优于现有的辨别模型，展示了其在临床场景中的潜力。

Jul, 2024

用于多尺度全片图像的临床级多脏器病理报告生成的语义指导医学文本基础模型

本研究解决了多尺度全片图像（WSIs）在病理报告生成中的应用难题，尤其是由于其庞大的数据量和高昂的标注成本。提出的PMPRG模型利用多尺度区域视觉变换器（MR-ViT）提取的特征和真实病理报告，显著提升了报告生成的准确性，取得了0.68的METEOR评分，提高了病理学家生成报告的效率。

Sep, 2024

SlideChat：一种用于全切片病理图像理解的大型视觉-语言助手

本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题，提出了SlideChat，这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集，SlideChat在多个临床场景中展示了卓越的多模态对话能力，超越了现有多模态模型，具有85%的主流任务性能提升潜力。

Oct, 2024