HCVP: 基于层次对比视觉提示的领域泛化
通过使用深度视觉提示以解决域不变性问题,结合语言提示以确保类别可分离性,以及自适应权重机制来平衡域不变性和类别可分离性,本文介绍了一种新的提示学习策略,并通过广泛实验证明深度视觉提示有效提取域不变特征,显著提高深度模型的泛化能力,在三个数据集上取得了最先进的性能。
Apr, 2024
利用对比学习提出了一种基于异质性的两阶段对比学习 (HTCL) 算法,在第一阶段使用对比度量生成最异质的划分模式,第二阶段利用先前生成的划分模式进行不变性对比学习,以更好地利用生成的域标签进行广义学习,从而更好地挖掘异质性并产生良好的广义性能。
May, 2023
我们提出了一种名为 Prompt-driven Latent Domain Generalization(PLDG)的新型无标签领域通用化(DG)框架,通过无监督领域发现和提示学习,实现了对医学图像分类的领域通用化,并在三个医学图像分类任务和一个去偏任务上展开了广泛实验,证明了我们的方法在不依赖领域标签的情况下实现了与传统 DG 算法相媲美甚至更好的性能。
Jan, 2024
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
本文针对视觉 - 语言模型中的文本提示有限,现有视觉提示方法性能或训练过程不稳定的问题,提出了一种新的渐进式视觉提示结构(ProVP),并结合对比特征重构,最终获得了在 11 个基准数据集上的最佳性能。
Apr, 2023
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零 - shot 能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。
Apr, 2024
本文介绍了一种基于 CLIP 模型的多模态提示解决方案(MP-FGVC),通过跨模态描述充分利用 CLIP 模型在细粒度视觉分类(FGVC)任务中的能力,并且通过多模态的协同推理进一步提高 FGVC 的性能。
Sep, 2023
通过无监督的提示学习方法,本文提出了一种改进图像字幕生成通用性的方法,该方法利用预训练的视觉 - 语言模型来学习目标领域的特定提示向量,通过属性一致性和语义一致性优化领域特定提示向量,从而有效地保留了大型模型中的知识并引入了领域特定知识。
Aug, 2023
本论文提出了基于 prompt learning 的全新方法 DoPrompt,利用 domain prompts 嵌入源域的知识进行目标域的预测,针对视觉转换器 (ViT) 在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高,是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。
Aug, 2022