基于文本引导的病理图像分类模型适应

Jul, 2023

基于文本引导的病理图像分类模型适应

Text-guided Foundation Model Adaptation for Pathological Image Classification

Yunkun Zhang, Jin Gao, Mu Zhou, Xiaosong Wang, Yu Qiao...

TL;DR利用联接图像和文本嵌入（CITE）方法改进病理图像分类，通过注入来自在广泛的生物医学文本中预训练的语言模型所获取的文本见解，使基础模型适应病理图像理解，并在 PatchGastric 胃肿瘤病理图像数据集上取得了领先的性能。

Abstract

The recent surge of foundation models in computer vision and natural language processing opens up perspectives in utilizing multi-modal clinical data to train large models with strong generalizability. Yet pathol

foundation models multi-modal clinical data biomedical text annotation image and text embeddings pathological image classification

发现论文，激发创造

RudolfV: 病理学家为病理学家打造的基础模型

通过半自动化数据整理和引入病理学领域知识，我们扩展了数字病理学全幻灯片图像的基础模型的最新技术。我们的模型在公共和内部基准测试中表现良好，尽管使用的幻灯片数量比竞争模型少一个数量级。我们预计在更多数据和更大的模型规模下，我们的方法将进一步提高性能，并能够处理日益复杂的诊断和生物医学研究中的实际问题。

Jan, 2024

基于基础模型的放射学内容医学图像检索应用

通过基于内容的图像检索（CBIR）系统中使用视觉基础模型作为功能强大且多用途的成品特征提取器，我们在包含 160 种病理学的 4 种模式的 160 万个二维放射学图像的综合数据集上进行基准测试，从而确定弱监督模型在性能上超越专门化模型，达到了 0.594 的 P@1，而且无需精调。研究还探讨了在获取病理学和解剖结构方面的挑战，表明准确获取病理学特征更加困难。尽管存在这些挑战，我们的研究强调了基础模型在放射学的 CBIR 中的巨大潜力，提出了向不需要特定调整的多用途医学图像检索系统的转变。

Mar, 2024

加强知识的视觉语言预训练在计算病理学中的应用

本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像 - 文本对和病理学中的领域特定知识。我们首次构建了包含 50,470 个有信息量的属性、涵盖 32 种人体组织下的 4,718 种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉 - 语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Apr, 2024

PathoTune：将视觉基础模型应用于病理专家

为解决基于预训练的病理基础模型到下游任务的适应性问题，提出了 PathoTune，一种通过多模态提示调整将病理学或甚至视觉基础模型高效适应病理学任务的框架。在多个数据集的补丁级和 WSI 级别上，结果表明它的性能优于单模态提示调整方法，并且较简单的线性探测下成效更好。

Mar, 2024

基于影像标注的潜在扩散模型用于增强组织病理学 AI 辅助癌症诊断

人工智能基于图像分析在诊断组织病理学方面，尤其是癌症诊断方面具有巨大潜力。为了开发监督式人工智能方法，需要大规模的注释数据集。本研究提出了一种从自动提取的图像特征中构建结构化文本提示的方法。通过在提示中引入图像特征而不仅仅是正常和癌症标签，我们改善了 Fréchet Inception Distance (FID) 的性能，从 178.8 提升到 90.2。我们还表明，病理学家难以检测到合成图像，敏感性 / 特异性的中位数为 0.55/0.55。最后，我们展示了合成数据有效地训练人工智能模型。

Dec, 2023

计算病理学的视觉 - 语言基础模型探索

CONCH 是一个基于多种来源的组织病理学图像、生物医学文本和 117 万图像标题对的视觉语言基础模型，可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能，为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。

Jul, 2023

将预训练的视觉语言基础模型应用于医学图像领域

本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中，通过研究 Stable Diffusion 模型的子组件，进而生成医学影像，并通过定量和定性的方法对模型效果进行评估。

Oct, 2022

医疗系统规模下的计算病理学 -- 来自三十亿图像的自监督基础模型

最近在自我监督学习方面的突破已经实现了使用大规模无标签数据集来训练视觉基础模型，该模型可以推广到各种下游任务。本项目的目标是训练最大的学术基础模型，并通过在大型临床病理数据集上的预训练和下游性能评估来对最重要的自我监督学习算法进行基准测试。结果表明，与自然图像的预训练相比，病理数据的预训练对下游性能是有益的。此外，DINO 算法在所有测试任务中实现了更好的泛化性能。这些结果标志着计算病理学研究的一个阶段性变化，为基于大规模、并行预训练的更高性能模型开辟了新时代。

Oct, 2023

利用现成的扩散模型进行医学术语定位

使用潜在扩散模型在零样本的情况下，通过选择特征和后处理进行文本引导的医学扫描的定位，相比于显式对齐图像与文本的联合嵌入空间的最新方法表现出竞争力并在多种病理类型上优于它们。

Apr, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉 - 语言模型

基于 BLIP-2 框架，使用病理报告中的精选文本与整张切片图像配对，开发了一种视觉语言模型，实现了共享的图像 - 文本嵌入空间，如文本或图像检索以寻找感兴趣的案例，以及将 WSI 编码器与冻结的大型语言模型（LLM）集成，以实现基于 WSI 的生成文本能力，如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上，展示了病理医师对文本生成和文本检索的评估，以及 WSI 分类和工作流程优先级排序（切片级别的分流）。平均来说，根据病理医师的评估，78％的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。

Jun, 2024