视觉语言预训练多实例零样例迁移用于组织病理学图像
通过从YouTube等多种资源中收集图像和文本,我们构建了一个大规模的视觉语言数据集Quilt-1M,其中共包含100万个成对的图像和文本样本,这是到目前为止规模最大的组织学图像和文本数据集,并通过微调预训练的CLIP模型在13个 diverse patch-level数据集和跨模态检索任务中优于最先进的模型。
Jun, 2023
CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
该研究提出了一种名为综合病理语言图像预训练(CPLIP)的无监督技术,用于增强组织病理学中图像和文本的对齐,以进行分类和分割等任务。CPLIP通过利用大量数据而不需要地面真实注释,来丰富视觉-语言模型。通过构建特定于病理学的词典、使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像,再运用多对多对比学习方法对模型进行微调,以使复杂的相关概念在两种模态之间对齐。在多个组织病理学任务中进行评估,CPLIP在零样本学习场景中显示出显著的改进,超越了现有方法在可解释性和鲁棒性方面,并在该领域中树立了更高的基准。为了鼓励进一步的研究和复制,CPLIP的代码可在GitHub上获取。
Jun, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像-文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024
通过将图像与文本进行对齐,利用预先训练的视觉语言模型对组织病理图像进行定量分析,并生成可理解的特征嵌入。通过应用于聚类和分类任务,证明了TQx能够与计算病理学中广泛使用的视觉模型相媲美地量化和分析病理图像。
Jul, 2024
本研究解决了当前组织病理学领域视觉-语言模型在逐块独立分类中的不足,提出了一种新的传导方法,通过结合文本预测和块间的亲和关系来提升模型性能。实验表明,该方法在四个数据集上大幅提高了分类准确度,且高效地处理了大量数据,展示了其在无标签条件下的强大潜力。
Sep, 2024
本研究解决了在组织病理学中,基于视觉语言模型(VLM)进行滑动级别分类时,零样本转移高变异性的问题。提出的MI-VisionShot方法结合了原型学习,利用VLM进行训练前适应,实现了在少量样本学习场景下的滑动级标签预测,实验结果表明其表现超过传统零样本转移,变异性更低,具有潜在的临床应用价值。
Oct, 2024
本研究解决了在组织病理学图像上进行零样本核检测时,现有视觉-语言预训练模型(VLPM)表现不佳的问题。通过提出一种名为AttriPrompter的创新自动提示管道,该方法生成语义丰富的文本提示并结合自训练知识蒸馏框架,显著提高了核检测的准确性和泛化性。本工作展示了VLPM在医学领域的潜在应用,超越了传统无监督方法的限制。
Oct, 2024