PathM3: 一个用于全幻灯片图像分类和字幕生成的多模式多任务多实例学习框架
ARCH是一个计算病理学(CP)多实例字幕数据集,包含对一系列染色、组织类型和病理的诊断和形态学描述,我们使用内在维度估计,显示ARCH是唯一可以与计算机视觉类比的MS-COCO Captions匹敌的CP数据集,我们推测在密集的图像字幕上预训练的编码器可以学习可迁移表示,支持这个假设的证据是ARCH表示比ImageNet功能或通过自我监督或多任务学习仅在病理图像上获得的表示更好地转移至各种病理亚任务,我们发布了我们的最佳模型,并邀请其他研究人员在其CP任务上进行测试。
Mar, 2021
提出了一个全局利用WSI的Hierarchical Attention-Guided Multiple Instance Learning框架,该框架动态地、全面地发现了WSIs的多个分辨率上的显著区域,同时使用Integrated Attention Transformer(由多个Integrated Attention Modules组成)进一步提高了transformer的性能,实验表明,该方法在多个数据集上取得了最先进的表现。
Jan, 2023
该研究论文提出了一种基于原型学习和多实例学习的Trainable Prototype enhanced deep MIL (TPMIL) 框架,用于弱监督下的WSI分类,其不需要依赖于选定的图像补丁,能够更准确地识别肿瘤亚型。
May, 2023
CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
提出了一个名为MUSTANG的多标引注意力自注意图的无监督吉帕像素多图像分类任务的端到端学习流水线,该任务只具备患者级别标签但没有幻灯片级别标签或区域注释,利用稀疏的k最近邻图和欧几里得距离进行操作限制,取得了0.89/0.92的F1得分/曲线下面积,优于广泛使用的CLAM模型。
Sep, 2023
本文提出了一种改良位置嵌入的长上下文WSI方法,通过引入线性偏差来处理形状变化的大WSI,并将其从1维长序列适应到2维长上下文WSI中,用于模型对未见或欠拟合位置的外推;同时利用闪存注意力模块解决Transformer的计算复杂性问题,保持了全自注意力的性能。通过在4个数据集上进行WSI分类和生存预测任务的广泛实验证明了我们方法在形状变化的WSIs上的优越性。
Nov, 2023
多实例学习(MIL)作为一种流行的方法正在用于对组织病理学全幅切片图像进行分类。作者提出了PAMT,这是一种新颖的基于提示的自适应模型转换框架,通过无缝地将预训练模型适应组织病理学数据的特点来提高MIL分类性能。作者引入了代表性补丁采样(RPS)和典型视觉提示(PVP)来重构输入数据,构建一个紧凑而且信息丰富的表示。此外,为了缩小域差异,作者在特征提取流水线中引入了适应性模型转换(AMT),使预训练模型能够学习特定领域的特征。作者在两个公开数据集Camelyon16和TCGA-NSCLC上对该方法进行了严格评估,展示了各种MIL模型的显著改进。作者的发现证实了PAMT在WSI分类中的潜力,强调了有针对性的重新编程方法的价值。
Mar, 2024
提出了一个属性驱动 MIL 框架来解决注意力机制在区分实例上的限制,并通过空间属性约束和属性排序约束改进了模型的识别能力,进而在多个评估指标上优于现有的最先进框架。
Mar, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
在临床环境中,由于患者隐私问题与罕见、新兴病的流行,对病理切片的访问受限。本文提出了一个增强了病理知识的多实例指令学习框架,通过在补丁和切片级别上整合视觉和文本先验知识,利用静态和可学习的指令引导预训练模型的激活,并进一步便利关键病理模式的诊断。我们的方法在三个临床任务中表现出优越的性能,明显优于比较性的少样本学习方法。
Jul, 2024