Jun, 2024

PathAlign: 一种适用于组织病理学全切片图像的视觉-语言模型

TL;DR基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。