Quilt-LLaVA：通过从开源组织组织的组织病理学视频中提取本地化的叙述来进行视觉指导调整

Dec, 2023

Quilt-LLaVA：通过从开源组织组织的组织病理学视频中提取本地化的叙述来进行视觉指导调整

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

Mehmet Saygin Seyfioglu, Wisdom O. Ikezogwo, Fatemeh Ghezloo, Ranjay Krishna, Linda Shapiro

TL;DR通过Quilt-Instruct数据集和Quilt-LLaVA模型，本研究提出了一种能够在全幅切片图像中进行诊断推理和空间感知的多模态组织病理学问答系统。该模型在多个公共组织病理数据集上表现出比SOTA模型高出超过10%的性能。

Abstract

The gigapixel scale of whole slide images (WSIs) poses a challenge for histopathology multi-modal chatbots, requiring a global WSI analysi

发现论文，激发创造

Quilt-1M：组织病理学的一百万张图像文本配对

通过从YouTube等多种资源中收集图像和文本，我们构建了一个大规模的视觉语言数据集Quilt-1M，其中共包含100万个成对的图像和文本样本，这是到目前为止规模最大的组织学图像和文本数据集，并通过微调预训练的CLIP模型在13个 diverse patch-level数据集和跨模态检索任务中优于最先进的模型。

Jun, 2023

计算病理学的视觉-语言基础模型探索

CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型，可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能，为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。

Jul, 2023

基于多模态视觉语言的人类病理学基础人工智能助手

PathChat是一种通用的、视觉-语言人工智能助理，经过预训练的视觉编码器与预先训练的大规模语言模型相结合，可用于病理学的教育、研究和临床决策。

Dec, 2023

HistGen: 通过局部-全局特征编码和跨模态上下文交互实现的组织病理报告生成

通过本研究，我们首次引入HistGen，一个采用多实例学习的框架用于组织病理学报告生成，并提供了用于评估的基准数据集。该模型通过两个精心设计的模块来提高报告生成的效率，从而加强了临床效果。实验结果表明该模型在报告生成方面表现优于现有最先进模型，并且在癌症亚型和生存分析任务上的微调表明具有很强的迁移学习能力。

Mar, 2024

加强知识的视觉语言预训练在计算病理学中的应用

本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Apr, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像-文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Jun, 2024

经济有效的病理视觉与语言分析指令学习

本研究针对将视觉语言模型应用于临床过程中所面临的训练数据、资源及财务挑战，提出了名为CLOVER的经济有效指令学习框架。通过冷冻大语言模型的参数并使用GPT-3.5生成低成本指令，CLOVER在回答视觉问题方面表现出色，展示了其在病理数字化应用中促进快速对话应用的潜力。

Jul, 2024

PathInsight：针对多模态数据集和模型的指令调优以辅助病理诊断

本研究解决了病理诊断中的多模态模型训练与应用之间的差距，尤其是在高质量训练数据集匮乏的背景下。通过针对约45,000个病例的数据集进行调优，我们提升了多模态大模型在图像描述和分类任务上的性能。研究表明，调优后的模型在应对典型的病理问题方面表现出色，期待能为医学和研究社区提供有价值的工具。

Aug, 2024

PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

本研究解决了现有病理图像理解模型缺乏领域专用性的难题，提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法，研究发现PA-LLaVA在多模态模型中表现出最佳性能，具有推动计算病理学研究的潜力。

Aug, 2024

SlideChat：一种用于全切片病理图像理解的大型视觉-语言助手

本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题，提出了SlideChat，这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集，SlideChat在多个临床场景中展示了卓越的多模态对话能力，超越了现有多模态模型，具有85%的主流任务性能提升潜力。

Oct, 2024