SlideChat：一种用于全切片病理图像理解的大型视觉-语言助手

Oct, 2024

SlideChat：一种用于全切片病理图像理解的大型视觉-语言助手

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

Ying Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye...

TL;DR本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题，提出了SlideChat，这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集，SlideChat在多个临床场景中展示了卓越的多模态对话能力，超越了现有多模态模型，具有85%的主流任务性能提升潜力。

Abstract

Despite the progress made by multimodal large language models (MLLMs) in Computational Pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the

发现论文，激发创造

AI语言病理学者的崛起：探索二级提示学习用于少样本弱监督全切片图像分类

本文介绍了一种用于病理全幻灯片图像分类的few-shot弱监督学习方法，提出了基于prompt learning和大型语言模型GPT-4的解决方案。

May, 2023

基于多模态视觉语言的人类病理学基础人工智能助手

PathChat是一种通用的、视觉-语言人工智能助理，经过预训练的视觉编码器与预先训练的大规模语言模型相结合，可用于病理学的教育、研究和临床决策。

Dec, 2023

超越多实例学习：全分辨率全内存端到端病理切片建模

人工智能（AI）在大规模数字化临床数据集上训练系统以提高健康结果方面具有巨大潜力。计算病理学作为对诊断和生物标志物具有重大影响的大量显微镜图像数据，处于这一发展的前沿。百亿像素病理学切片由于其巨大的尺寸而面临独特挑战，通常被分成数万个较小的瓷砖进行分析。我们提出了一种新方法，通过在内存中全面高分辨率地同时训练瓷砖编码器和整个切片聚合器来解决这个问题，弥合了输入和切片级监督之间的差距。虽然计算成本更高，但详细的定量验证显示了病理基础模型的大规模预训练的前景。

Mar, 2024

PathM3: 一个用于全幻灯片图像分类和字幕生成的多模式多任务多实例学习框架

通过多模态多任务多实例学习的 PathM3 框架，有效地将组织切片图像与诊断说明对齐，从而在组织病理学图像分类和生成诊断说明任务上提高了分类准确性和生成效果。

Mar, 2024

加强知识的视觉语言预训练在计算病理学中的应用

本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Apr, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像-文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Jun, 2024

PathGen-1.6M: 160万病理图像-文本对的多机器人协作生成

利用大规模全扫描图像数据集和多模型协作的方法，生成高质量的图像-文本对，为病理学领域的 Vision Language Models 进行训练和指导调优，从而显著提高其分析病理图像的能力，并为下一代通用病理模型铺平了道路。

Jun, 2024

WSI-VQA: 利用生成式视觉问答解释全切片图像

通过生成式视觉问答的方式，提出了一个新的框架 (WSI-VQA)，可以对整张切片图像进行解读，实现免疫组化分级、生存预测和肿瘤亚型划分等任务，并在医学正确性方面优于现有的辨别模型，展示了其在临床场景中的潜力。

Jul, 2024

病理学中幻灯片表征学习的多染色预训练

本研究解决了现有幻灯片表征学习方法在临床和生物多样性方面的局限。通过引入多模态预训练策略Madeleine，该方法利用多标记染色的幻灯片形成丰富的无任务信号，从而提高学习的表征质量。研究结果表明，Madeleine在包括形态学分类和预后预测在内的多个下游任务上表现优异，具有广泛的临床应用潜力。

Aug, 2024

PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

本研究解决了现有病理图像理解模型缺乏领域专用性的难题，提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法，研究发现PA-LLaVA在多模态模型中表现出最佳性能，具有推动计算病理学研究的潜力。

Aug, 2024