MoP-CLIP: 针对领域增量学习的 Prompt-Tuned CLIP 模型混合
使用 AD-CLIP 解决图像领域适应问题,通过在 prompt 空间中提取图像风格和内容信息,采用标准的有监督对比学习和最小熵策略来对齐源领域和目标领域,同时提出跨领域风格映射网络来生成领域无关的标记,实验证明了 AD-CLIP 的有效性。
Aug, 2023
本文探讨了在开放领域中视觉语言模型的持续学习问题,介绍了一种名为 CoLeCLIP 的新方法,通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战,实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。
Mar, 2024
本文发现,CLIP(Contrastive Language-Image Pretraining)模型在冻结状态下,在不进行任何微调(零次评估)的情况下提供惊人的持续学习表现。作者在多种设置(包括类增量、域增量和任务不可知的增量学习)和五个流行基准测试集上评估了 CLIP 模型,证明了其在大多数设置中优于现有模型;同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。
Oct, 2022
提出了一种名为 DialCLIP 的参数高效的提示调整方法,用于多模态对话检索,通过仅调整总参数的 0.04%实现了在两个广泛认可的基准数据集上的最新性能,突出了该方法的功效和效率,强调其推动多模态对话检索领域发展的潜力。
Jan, 2024
通过利用 SYNthetic 数据增强 CLIP 的泛化能力,SYNC-CLIP 方法在开放词汇的情景下显著优于 PromptSRC,平均提高了 3.0% 的性能。
Dec, 2023
在这项工作中,我们介绍了一种用于 CLIP 的样本高效领域适应策略,称为 Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC 提供了一个计算效率高、抗分布转移性强且不改变 CLIP 参数的少样本微调框架,在 11 个广泛使用的图像分类任务中,以 2.3% 的提升应对 16 个样本分类挑战,并在 4 个鲁棒性基准上展现出竞争性能。
Nov, 2023
本文提出了一种基于 CLIP 的深度交互式跨模态提示学习(DCP)方法,可实现视觉和语言之间的灵活相互作用,通过良好连接的多头注意力模块逐步强且稳定地交换各自的表示,并在 11 个图像分类数据集上进行综合少样本学习实验和域自适应能力分析,实验结果显示 DCP 表现出了超凡的少样本泛化性能和具有吸引力的域适应能力。
May, 2023
通过引入 ODG-CLIP,我们利用视觉语言模型 CLIP 的语义优势来解决开放域泛化中的局限性,实现了在不同领域和类别之间进行泛化的挑战。我们提出了三个主要创新:首先,我们将 ODG 看作一个多类别分类问题,包括已知类别和新类别,我们使用一个独特的提示来检测未知类别样本,并使用稳定扩散模型生成开放类别的代理图像。其次,我们设计了一种新颖的可视化风格中心提示学习机制,以实现针对特定领域的分类权重。最后,我们通过将提示空间中得出的类别区分知识注入图像,增强了 CLIP 的视觉嵌入的真实性,并引入了一个新的目标来保证在不同领域中这种注入的语义一致性。通过在不同数据集上进行严格测试,包括封闭和开放集 DG 背景,ODG-CLIP 显示出明显的优越性,性能提升在 8%-16% 之间。
Mar, 2024
该研究项目提出了一种名为图像特定提示学习(IPL)的方法,能够为每个源域图像学习特定的提示向量,从而为每个跨域图像对提供更准确的适应方向,增强目标域生成器的灵活性,并改善合成图像的质量和多样性。
Apr, 2023
在这篇论文中,我们介绍了一种无监督域提示蒸馏框架,通过使用未标记的领域图像进行提示驱动的模仿,旨在将更大的教师模型的知识转移给轻量级目标模型。
Mar, 2024