无需注释的病理定位的通用视觉语言预训练
利用图像和诊断报告的多模态深度学习在医学影像诊断领域取得了显著进展,尤其在缺乏足够注释信息的辅助诊断方面具有强大的能力,然而,没有详细位置注释的准确定位疾病仍然是一个挑战,现有的方法已尝试利用局部信息实现细粒度语义对齐,但其在提取综合上下文内的细粒度语义能力有限,为解决这一问题,我们提出了一种新的方法,将文本报告中的完整句子作为局部语义对齐的基本单元,我们的方法结合了胸部 X 射线图像和相应的文本报告,在全局和局部层面进行对比学习,我们的方法在多个数据集上取得的领先结果证实了其在病灶定位任务中的有效性。
Jan, 2024
CONCH 是一个基于多种来源的组织病理学图像、生物医学文本和 117 万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像 - 文本对和病理学中的领域特定知识。我们首次构建了包含 50,470 个有信息量的属性、涵盖 32 种人体组织下的 4,718 种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉 - 语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
最近在自我监督学习方面的突破已经实现了使用大规模无标签数据集来训练视觉基础模型,该模型可以推广到各种下游任务。本项目的目标是训练最大的学术基础模型,并通过在大型临床病理数据集上的预训练和下游性能评估来对最重要的自我监督学习算法进行基准测试。结果表明,与自然图像的预训练相比,病理数据的预训练对下游性能是有益的。此外,DINO 算法在所有测试任务中实现了更好的泛化性能。这些结果标志着计算病理学研究的一个阶段性变化,为基于大规模、并行预训练的更高性能模型开辟了新时代。
Oct, 2023
通过咨询大型语言模型和医学专家,我们提出了一种新颖的 VLP 框架,将疾病描述分解为基本要素,利用对病理学可视表现的先前知识。通过整合 Transformer 模块,我们的方法将输入图像与疾病的多个要素进行对齐,生成以要素为中心的图像表示。通过整合每个要素的匹配,我们改善了图像与其相关疾病之间的兼容性。此外,我们还提出了一个面向要素的双头 Transformer,用于处理已知和未知疾病,以优化综合检测效果。在七个数据集上进行实验证明,我们的方法在已见类别和新颖类别的 AUC 得分上分别超过最近的方法 8.07% 和 11.23%。
Mar, 2024
PathChat 是一种通用的、视觉 - 语言人工智能助理,经过预训练的视觉编码器与预先训练的大规模语言模型相结合,可用于病理学的教育、研究和临床决策。
Dec, 2023
我们提出了一种详尽的方法论,利用各种抽象级别,旨在增强图像分类对未被观察的医院的普遍性。我们的方法将基于增强的自我监督与组织病理学场景中的常见分布偏移作为先决任务相结合。通过这种方式,我们可以从训练图像中提取不依赖于训练标签的不变特征,从而覆盖不同的抽象级别。然后,我们使用领域对齐模块在不同训练医院之间进一步提取不变特征。为了表示参与医院的高度特定特征,我们训练一个编码器来对医院标签进行分类,而不考虑其诊断标签。每个编码器的特征随后被分解以最小化冗余并分离特征。这种表示涵盖了广泛的语义信息,使得我们的模型在面对来自不同分布的新出现的医院图像时表现出更高的鲁棒性。来自 PACS 数据集(一个领域泛化基准)、应用组织病理学特定扰动到 MHIST 数据集构建的合成数据集(定义了具有不同分布偏移的不同领域)和从 TCGA 的四个图像库派生的肾癌数据集的实验结果共同表明,我们提出的模型在管理不同级别图像粒度方面表现出了优越性。因此,当面临新的、来自分布不同的医院图像时,该模型显示出了更强的普适性。
Aug, 2023
提出了一种在弱监督学习下用于疾病定位的方法,使用预训练的深度卷积网络、特征嵌入、以及基于多实例学习的顶部实例和负面证据学习等技术,即使在没有像素级别注释的情况下,仅通过图像级标签进行训练也能够展现出与强监督学习相当的性能。
Feb, 2018
使用潜在扩散模型在零样本的情况下,通过选择特征和后处理进行文本引导的医学扫描的定位,相比于显式对齐图像与文本的联合嵌入空间的最新方法表现出竞争力并在多种病理类型上优于它们。
Apr, 2024
本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据,构建用于具体医学任务的高性能视觉语言模型,并解决医学领域中子图到子标题的映射问题。
Apr, 2024