WSI-VQA: 利用生成式视觉问答解释全切片图像
本研究论文旨在探讨是否可以培养出一个 AI 病理学家,以通过美国病理学委员会认证考试,在此目标下,研究第一步是创造一个视觉问答数据集,本文将尝试构建一个病理 VQA 数据集,用自然语言处理等方法从病理学教科书和在线数字库中提取病理图像和标题,并生成问答对,最终收集了32,799个来自4,998个病理图像的开放性问题,这是公开发布的第一个用于病理学 VQA 的数据集。
Mar, 2020
本文介绍了一种用于病理全幻灯片图像分类的few-shot弱监督学习方法,提出了基于prompt learning和大型语言模型GPT-4的解决方案。
May, 2023
使用全幻灯片图像生成病理报告的多示例生成模型(MI-Gen)可减轻经验不足的病理医生的工作负担并提高临床自动化,同时简单的语义提取可以实现最佳性能且公开可用。
Nov, 2023
提出了一种新颖的“细粒度的视觉-语义相互作用”(FiVE)框架,用于整个切片图像(WSI)的分类,通过利用局部视觉模式和细粒度病理学语义之间的相互作用,提高模型的普适性,并通过引入任务特定的细粒度语义(TFS)模块,增强表示学习和泛化能力,进一步采样训练中的视觉实例子集,表现出强大的泛化能力,在TCGA肺癌数据集上的少样本实验中,准确度至少比同类方法提高9.19%。
Feb, 2024
通过多模态多任务多实例学习的 PathM3 框架,有效地将组织切片图像与诊断说明对齐,从而在组织病理学图像分类和生成诊断说明任务上提高了分类准确性和生成效果。
Mar, 2024
本文提出了PitVQA和PitVQA-Net,通过图像和文本信息的联合嵌入和上下文表示,解决了对内窥镜垂体手术领域中复杂的问答任务的挑战,并在PitVQA和EndoVis18-VQA数据集上取得了显著性能改进。
May, 2024
基于 BLIP-2 框架,使用病理报告中的精选文本与整张切片图像配对,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间,如文本或图像检索以寻找感兴趣的案例,以及将 WSI 编码器与冻结的大型语言模型(LLM)集成,以实现基于 WSI 的生成文本能力,如报告生成或 AI 交互。在超过 35 万张 WSI 和诊断文本配对的去标识化数据集上,展示了病理医师对文本生成和文本检索的评估,以及 WSI 分类和工作流程优先级排序(切片级别的分流)。平均来说,根据病理医师的评估,78%的 WSI 的模型生成的文本准确无误、没有临床上显著的错误或遗漏。这项工作展示了语言与 WSI 嵌入相结合的激动人心的潜力能力。
Jun, 2024
本研究解决了多尺度全片图像(WSIs)在病理报告生成中的应用难题,尤其是由于其庞大的数据量和高昂的标注成本。提出的PMPRG模型利用多尺度区域视觉变换器(MR-ViT)提取的特征和真实病理报告,显著提升了报告生成的准确性,取得了0.68的METEOR评分,提高了病理学家生成报告的效率。
Sep, 2024
本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题,提出了SlideChat,这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集,SlideChat在多个临床场景中展示了卓越的多模态对话能力,超越了现有多模态模型,具有85%的主流任务性能提升潜力。
Oct, 2024
本研究解决了当前组织病理学全幻灯片图像分析中忽视幻灯片之间可能的相互关系的问题。提出的SlideGCD模型通过引入幻灯片间的关联性,提升了现有多实例学习框架的性能,验证了在癌症分型、分期、存活预测和基因突变预测等任务中的有效性和鲁棒性。
Oct, 2024