预训练视觉语言模型中的伪提示生成,面向多标签医学图像分类
本文提出了一种能够同时预测CXR图像中多个已见与未见疾病的多标签广义零样学习(CXR-ML-GZSL)网络,借助一个丰富的医学文本语料库提取的语义向量指导图像表示的学习,该网络在NIH Chest X-ray数据集上的实验表明其能够优于两个强基线方法。
Jul, 2021
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
本文介绍了一种用于病理全幻灯片图像分类的few-shot弱监督学习方法,提出了基于prompt learning和大型语言模型GPT-4的解决方案。
May, 2023
本文提出了一种基于连续提示的统一图像-文本-标签对比学习框架,从数据统一性,多样性和假阴性样本等方面解决了医学图像对比学习中的的挑战,并在多个下游任务中展现出了出色的表现。
Jul, 2023
利用合成图像从真实医学报告中生成的医学影像,可以有效地实现医学视觉与语言预训练(VLP),并且在图像分类、语义分割和目标检测等任务上,利用合成数据的性能与真实数据相当甚至超过。
Oct, 2023
在医学图像分类中,提出了一种基于多模型基础模型的新的提示多模型模型范例(PM2),通过多种提示方案以及线性探测技术,PM2能够有效地应对医学图像分类的挑战并取得了最先进的性能。
Apr, 2024
本研究针对放射科医学图像分类中的通用化问题,通过视觉提示工程提升视觉语言模型的能力。研究揭示通过直接嵌入视觉标记,如箭头和圆圈,可显著改善肺结节恶性程度分类的各项指标,强调了该方法在医学图像分析中的重要性和潜在影响。
Aug, 2024
本研究解决了现有医学视觉语言预训练模型在面对不同文本提示时的性能不稳定问题。我们系统评估了三种流行的MedVLP方法在15种疾病上的提示敏感性,并发现所有模型在不同可解释性提示下的表现不均匀,揭示了对复杂医学概念理解的困难。这表明需要进一步改进MedVLP方法,以增强其面对多样化零-shot提示的鲁棒性。
Aug, 2024
本研究解决了医疗视觉语言预训练(MedVLP)在缺少高质量图文配对数据情况下的训练问题。通过使用生成模型生成合成放射学报告和胸部X光图像,并提出了一种自动化管道,构建了多样且高质量的合成数据集。研究结果表明,专门使用合成数据训练的MedVLP模型在零样本分类任务中的表现优于基于真实数据的模型,并展示了合成数据在医学图像理解中的潜在积极影响。
Oct, 2024