SYNC-CLIP: 合成数据使得 CLIP 在数据有限场景下达到更好的泛化效果
通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题,并在测试中取得明显优于其他方法的结果。
Apr, 2024
本文提出了一种基于生成式方法的模型适配方案 (SHIP),使用文本和图像信息进行训练的预训练模型 (CLIP) 可以在没有标签的类别上表现出更好的效果。在对基础数据集到新的数据集的泛化、跨数据集的迁移学习和广义的零样本学习等方面进行了广泛实验,证明了该方法的优越性
Jul, 2023
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
提出了一种基于 CLIP 模型的多提示混合学习方法,用于解决领域增量学习中遇到的忘却和分布漂移问题,并表明该方法在标准的领域增量学习设置中表现出色,而在超出分布的情况下表现更好。
Jul, 2023
我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。
Jul, 2023
我们提出了 C-SAW,这是一个在视觉空间中加入自监督损失和强调视觉领域和内容特定特征的新型提示学习技术,以确保领域不变的提示学习,并增强视觉特征的表达能力。C-SAW 在多个遥感基准测试和不同的泛化任务中展现了超越性能。
Nov, 2023
本文探讨了在开放领域中视觉语言模型的持续学习问题,介绍了一种名为 CoLeCLIP 的新方法,通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战,实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。
Mar, 2024
我们提出了一种插拔式特征增强方法,称为 LDFS(语言引导的多样特征合成),通过合成新领域特征和改进现有的 CLIP 微调策略,从未见过的领域中提高 CLIP 的泛化能力,而无需从这些领域收集数据。
May, 2024
该研究项目提出了一种名为图像特定提示学习(IPL)的方法,能够为每个源域图像学习特定的提示向量,从而为每个跨域图像对提供更准确的适应方向,增强目标域生成器的灵活性,并改善合成图像的质量和多样性。
Apr, 2023