MI-VisionShot:用于组织病理图像滑动级分类的视觉语言模型少量学习适应
本文介绍了一种用于病理全幻灯片图像分类的few-shot弱监督学习方法,提出了基于prompt learning和大型语言模型GPT-4的解决方案。
May, 2023
提出了MI-Zero框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023
CONCH是一个基于多种来源的组织病理学图像、生物医学文本和117万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
通过咨询大型语言模型和医学专家,我们提出了一种新颖的VLP框架,将疾病描述分解为基本要素,利用对病理学可视表现的先前知识。通过整合Transformer模块,我们的方法将输入图像与疾病的多个要素进行对齐,生成以要素为中心的图像表示。通过整合每个要素的匹配,我们改善了图像与其相关疾病之间的兼容性。此外,我们还提出了一个面向要素的双头Transformer,用于处理已知和未知疾病,以优化综合检测效果。在七个数据集上进行实验证明,我们的方法在已见类别和新颖类别的AUC得分上分别超过最近的方法8.07%和11.23%。
Mar, 2024
本文介绍一种新颖的基于语言相关的自监督学习框架,即Hierarchical Language-tied Self-Supervised (HLSS)方法,用于医学图像的层次化表示学习。通过结合领域特定的自然语言信息与图像的层次化视觉表示,该方法在医学图像任务中取得了最先进的性能,同时还提供了更好的可解释性。
Mar, 2024
该研究提出了一种名为综合病理语言图像预训练(CPLIP)的无监督技术,用于增强组织病理学中图像和文本的对齐,以进行分类和分割等任务。CPLIP通过利用大量数据而不需要地面真实注释,来丰富视觉-语言模型。通过构建特定于病理学的词典、使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像,再运用多对多对比学习方法对模型进行微调,以使复杂的相关概念在两种模态之间对齐。在多个组织病理学任务中进行评估,CPLIP在零样本学习场景中显示出显著的改进,超越了现有方法在可解释性和鲁棒性方面,并在该领域中树立了更高的基准。为了鼓励进一步的研究和复制,CPLIP的代码可在GitHub上获取。
Jun, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
在临床环境中,由于患者隐私问题与罕见、新兴病的流行,对病理切片的访问受限。本文提出了一个增强了病理知识的多实例指令学习框架,通过在补丁和切片级别上整合视觉和文本先验知识,利用静态和可学习的指令引导预训练模型的激活,并进一步便利关键病理模式的诊断。我们的方法在三个临床任务中表现出优越的性能,明显优于比较性的少样本学习方法。
Jul, 2024
本研究解决了当前组织病理学领域视觉-语言模型在逐块独立分类中的不足,提出了一种新的传导方法,通过结合文本预测和块间的亲和关系来提升模型性能。实验表明,该方法在四个数据集上大幅提高了分类准确度,且高效地处理了大量数据,展示了其在无标签条件下的强大潜力。
Sep, 2024
本研究针对医学视觉语言模型在少样本适应中相对未被探索的问题,提出了第一个结构化基准。我们引入了一种简单的线性探测器适应方法,结合视觉原型和文本嵌入,实现了在多种医疗模态和下游任务中的竞争性表现,推动了该领域的进一步发展。
Sep, 2024