概念引导下的提示学习进行视觉 - 语言模型泛化
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
通过测试样本的无监督目标,在视觉识别任务中使用上下文提示学习来适应预训练的视觉 - 语言模型,并取得了在各种下游数据集上的有效结果。
Mar, 2024
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。
Jul, 2023
本文提出了一种基于 CLIP 的深度交互式跨模态提示学习(DCP)方法,可实现视觉和语言之间的灵活相互作用,通过良好连接的多头注意力模块逐步强且稳定地交换各自的表示,并在 11 个图像分类数据集上进行综合少样本学习实验和域自适应能力分析,实验结果显示 DCP 表现出了超凡的少样本泛化性能和具有吸引力的域适应能力。
May, 2023
本文提出了一种新的对视觉和语言模型进行计数事实学习(counterfactual prompt learning,CPL)的方法,该方法同时采用反事实生成和对比学习的方法,在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prompt 表示。实验测试表明,CPL 在不同的视觉和语言任务上都可以获得优秀的 few-shot 性能。
Oct, 2022
使用大规模预训练的视觉语言模型(如 CLIP)及跨模态概念学习和推理(CCLI)方法,能够通过文本和图像之间的相关性自动学习图像的视觉概念,并构建区分性的图像表示,从而提高少样本学习和领域泛化等图像分类任务的性能。
Jul, 2023