预训练视觉语言模型中的伪提示生成,面向多标签医学图像分类
通过弱监督的提示学习方法 MedPrompt,自动生成医学提示并利用预训练的视觉 - 语言模型,在低资源情况下提升医学图像识别的性能和准确率。
Feb, 2024
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
通过 Meta-Prompting for Visual Recognition (MPVR) 方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个 LLMs 和 VLMs 测试,MPVR 可以有效地推广,比 CLIP 提高了最高 19.8%和 18.2%(平均 20 个数据集上分别为 5.0%和 4.5%),依赖于 GPT 和 Mixtral LLMs。
Mar, 2024
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零 - shot 能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。
Apr, 2024
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉 - 语言模型(VLM)如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识,为学习提示提供宝贵的文本描述。然后,通过考虑多标签依赖性,提出了一种层次化的提示学习方法,在对象具有相似属性或更有可能共现时,共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性,从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的大量实验证明,我们的方法比现有方法取得更好的结果,尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。
Mar, 2024
利用强大的视觉 - 语言模型(VLM)来完成各种下游任务已引起越来越多的关注。我们提出了一种新颖的可解释提示学习框架,通过在多个粒度上对医学知识、可以学习的提示和临床概念驱动的提示的语义进行对齐,来解决这个问题,并为提示提供了视觉和文本解释。通过对各种数据集进行广泛的实验证明,我们的方法同时实现了优越的诊断性能、灵活性和可解释性,为基础模型在促进可解释的人工智能方面的有效性提供了新的视角。
Mar, 2024
在医学图像分类中,提出了一种基于多模型基础模型的新的提示多模型模型范例(PM2),通过多种提示方案以及线性探测技术,PM2 能够有效地应对医学图像分类的挑战并取得了最先进的性能。
Apr, 2024
该研究论文提出了一种使用伪视觉提示的模块来改进多标签图像分类的性能,通过将伪视觉提示与文本提示结合,增强它们的视觉表示能力,并在多个数据集上展示了超过现有方法的性能提升。
May, 2024
准确分割病变区域对于各种疾病的临床诊断和治疗至关重要。本研究提出了一种新颖的医学视觉提示 (MVP) 框架,借鉴了自然语言处理 (NLP) 的预训练和提示概念,通过整合 SPGP、IEGP 和 AAGP 三个关键组件,使得分割网络更好地学习形状提示信息并实现不同任务之间的相互学习,实验结果表明此方法在各种具有挑战性的医学图像任务中表现优越。
Apr, 2024
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024