AD-CLIP: 利用 CLIP 在提示空间中调适领域
通过引入低成本提示调整范式来学习特定领域视觉提示,我们提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示,DAP 相比现有的最先进方法具有明显的优势。
Nov, 2023
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
在这项工作中,我们介绍了一种用于 CLIP 的样本高效领域适应策略,称为 Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC 提供了一个计算效率高、抗分布转移性强且不改变 CLIP 参数的少样本微调框架,在 11 个广泛使用的图像分类任务中,以 2.3% 的提升应对 16 个样本分类挑战,并在 4 个鲁棒性基准上展现出竞争性能。
Nov, 2023
本文提出了一种新颖的无监督领域自适应学习范式 —— 通过提示学习的领域自适应 (DAPL),通过嵌入域信息和利用预训练的视觉 - 语言模型进行分类,此方法在多个领域的基准测试数据上表现优异,并且训练效率高、易于实现。
Feb, 2022
该研究项目提出了一种名为图像特定提示学习(IPL)的方法,能够为每个源域图像学习特定的提示向量,从而为每个跨域图像对提供更准确的适应方向,增强目标域生成器的灵活性,并改善合成图像的质量和多样性。
Apr, 2023
通过引入 ODG-CLIP,我们利用视觉语言模型 CLIP 的语义优势来解决开放域泛化中的局限性,实现了在不同领域和类别之间进行泛化的挑战。我们提出了三个主要创新:首先,我们将 ODG 看作一个多类别分类问题,包括已知类别和新类别,我们使用一个独特的提示来检测未知类别样本,并使用稳定扩散模型生成开放类别的代理图像。其次,我们设计了一种新颖的可视化风格中心提示学习机制,以实现针对特定领域的分类权重。最后,我们通过将提示空间中得出的类别区分知识注入图像,增强了 CLIP 的视觉嵌入的真实性,并引入了一个新的目标来保证在不同领域中这种注入的语义一致性。通过在不同数据集上进行严格测试,包括封闭和开放集 DG 背景,ODG-CLIP 显示出明显的优越性,性能提升在 8%-16% 之间。
Mar, 2024
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练,我们的方法不断适应多个具有不同样式和形状特征的领域,并维持对未来任务有吸引力的潜在空间属性。
Aug, 2021
提出了一种基于 CLIP 模型的多提示混合学习方法,用于解决领域增量学习中遇到的忘却和分布漂移问题,并表明该方法在标准的领域增量学习设置中表现出色,而在超出分布的情况下表现更好。
Jul, 2023
利用自适应提示学习、负面文本语义和基于对比语言 - 图像预训练的不确定性建模方法,本文提出了一种适应性提示方法,用于 UniMDA 分类任务,通过使用自适应提示的 CLIP 来利用类语义和领域表示的文本信息,帮助模型识别未知样本并解决领域转换,并提出了利用负面文本语义实现更精确的图像 - 文本对齐的全局实例级别对齐目标,以及一种基于能源的不确定性建模策略来扩大已知和未知样本之间的边际距离。大量实验证明了我们提出的方法的优越性。
Apr, 2024
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021