MI-Gen:用于千兆像素全切片图像的病理报告多示例生成
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像 - 文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像 - 文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024
通过多模态多任务多实例学习的 PathM3 框架,有效地将组织切片图像与诊断说明对齐,从而在组织病理学图像分类和生成诊断说明任务上提高了分类准确性和生成效果。
Mar, 2024
人工智能(AI)在大规模数字化临床数据集上训练系统以提高健康结果方面具有巨大潜力。计算病理学作为对诊断和生物标志物具有重大影响的大量显微镜图像数据,处于这一发展的前沿。百亿像素病理学切片由于其巨大的尺寸而面临独特挑战,通常被分成数万个较小的瓷砖进行分析。我们提出了一种新方法,通过在内存中全面高分辨率地同时训练瓷砖编码器和整个切片聚合器来解决这个问题,弥合了输入和切片级监督之间的差距。虽然计算成本更高,但详细的定量验证显示了病理基础模型的大规模预训练的前景。
Mar, 2024
通过本研究,我们首次引入 HistGen,一个采用多实例学习的框架用于组织病理学报告生成,并提供了用于评估的基准数据集。该模型通过两个精心设计的模块来提高报告生成的效率,从而加强了临床效果。实验结果表明该模型在报告生成方面表现优于现有最先进模型,并且在癌症亚型和生存分析任务上的微调表明具有很强的迁移学习能力。
Mar, 2024
通过弱监督的多实例学习方法,利用全幅显微镜图像整体癌症表型的预测来探索肿瘤检测和癌基因突变检测,结果显示与参考实现(AUC 0.96)相匹配的新型叠加多实例学习和关注多实例学习(AUC 0.97)对肿瘤和 TP53 突变的检测能力优于其他 AI 架构,并在不同放大级别下显示对形态特征的不同敏感性。
Apr, 2024
使用一个现有的预训练 Vision Transformer,通过两步过程对全幻灯片图像(WSI)的 4096x4096 大小的补丁进行编码,并将其作为编码器和 LSTM 解码器用于报告生成,我们可以构建一个相当高效和可移植的报告生成机制,考虑到整个高分辨率图像,而不仅仅是补丁。我们还能够使用来自现有强大的预训练分层 Vision Transformer 的表示,在零样本分类和报告生成方面显示其实用性。
Nov, 2023
基于深度学习的计算病理学领域的研究表明,利用全切片图像(WSIs)客观预测癌症患者预后的效果显著。然而,目前大多数预后方法局限于组织病理学或基因组学,不可避免地降低了其准确预测患者预后的潜力。为了解决这些问题,我们提出了一种弱监督、基于注意机制的多模态学习框架 —— 互相引导的跨模态转换器(MGCT),可以利用组织学特征和基因组特征来建模肿瘤微环境内的基因型 - 表型相互作用。通过使用来自癌症基因组图谱(TCGA)的五种不同癌症类型的近 3600 个 Gigapixel WSIs 进行实验,广泛的实验结果一致表明 MGCT 优于现有的最先进方法(SOTA)。
Nov, 2023
提出了 MI-Zero 框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023