SYNC-CLIP: 合成数据使得 CLIP 在数据有限场景下达到更好的泛化效果

Dec, 2023

SYNC-CLIP: 合成数据使得 CLIP 在数据有限场景下达到更好的泛化效果

SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited Scenarios

Mushui Liu, Weijie He, Ziqian Lu, Yunlong Yu

TL;DR通过利用 SYNthetic 数据增强 CLIP 的泛化能力，SYNC-CLIP 方法在开放词汇的情景下显著优于 PromptSRC，平均提高了 3.0% 的性能。

Abstract

prompt learning is a powerful technique for transferring Vision-Language Models (VLMs) such as CLIP to downstream tasks. However, the prompt-based methods that are fine-tuned solely with base classes may struggle to generalize to novel classes in →

prompt learning vision-language models open-vocabulary scenarios synthetic data generalization capability

发现论文，激发创造

PromptSync：通过分类感知的原型对齐和判别消除视觉语言模型中的领域差距

通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题，并在测试中取得明显优于其他方法的结果。

Apr, 2024

利用合成提示来提升 CLIP 的零样本泛化能力

本文提出了一种基于生成式方法的模型适配方案 (SHIP)，使用文本和图像信息进行训练的预训练模型 (CLIP) 可以在没有标签的类别上表现出更好的效果。在对基础数据集到新的数据集的泛化、跨数据集的迁移学习和广义的零样本学习等方面进行了广泛实验，证明了该方法的优越性

Jul, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

MoP-CLIP: 针对领域增量学习的 Prompt-Tuned CLIP 模型混合

提出了一种基于 CLIP 模型的多提示混合学习方法，用于解决领域增量学习中遇到的忘却和分布漂移问题，并表明该方法在标准的领域增量学习设置中表现出色，而在超出分布的情况下表现更好。

Jul, 2023

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

C-SAW: 遥感中图像泛化的自监督提示学习

我们提出了 C-SAW，这是一个在视觉空间中加入自监督损失和强调视觉领域和内容特定特征的新型提示学习技术，以确保领域不变的提示学习，并增强视觉特征的表达能力。C-SAW 在多个遥感基准测试和不同的泛化任务中展现了超越性能。

Nov, 2023

CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

本文探讨了在开放领域中视觉语言模型的持续学习问题，介绍了一种名为 CoLeCLIP 的新方法，通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战，实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。

Mar, 2024

通过文本引导的多样的新颖特征合成将 CLIP 普及到未知领域

我们提出了一种插拔式特征增强方法，称为 LDFS（语言引导的多样特征合成），通过合成新领域特征和改进现有的 CLIP 微调策略，从未见过的领域中提高 CLIP 的泛化能力，而无需从这些领域收集数据。

May, 2024

通过图像特定提示学习进行零样本生成模型适应

该研究项目提出了一种名为图像特定提示学习（IPL）的方法，能够为每个源域图像学习特定的提示向量，从而为每个跨域图像对提供更准确的适应方向，增强目标域生成器的灵活性，并改善合成图像的质量和多样性。

Apr, 2023